FuguReport

An Open-Source Benchmark and Baseline for Multi-temporal Referring Segmentation

著者 Bingyu Li, Da Zhang, Tao Huo, Zhiyuan Zhao, Junyu Gao, Xuelong Li
所属 China Telecom / University of Science and Technology of China / Northwestern Polytechnical University
カテゴリ Task / Referring Segmentation / Multi-temporal image segmentation with language, Method / Baseline Models / LVLM-based baseline evaluation, Evaluation / Benchmarking / Multi-temporal referring segmentation benchmark
ライセンス CC BY 4.0

Abstractの概要

本論文は、モデルが時間的に関連する複数の画像と自然言語のクエリを受け取り、記述された時間的変化に対応する領域をセグメンテーションするタスクである「Multi-temporal Referring Segmentation (MTRS)」を提案しています。この設定をサポートするため、著者らは人手による監査を伴うCRAFT-Agentパイプラインを用いて「MTRefSeg-21K」を構築し、一般的なシーンおよびリモートセンシングのドメインにわたる9,521組の2時期画像ペアと、マスク付きの参照表現20,924件を作成しました。また、既存のVLM/LVLMセグメンテーションモデルをこの設定に適合させ、単一時期のLVLMを直接使用してもMTRSには概して効果がないことを示しました。この課題に対処するため、著者らは、約2万の2時期サンプルでの視覚のみの時間的変化事前学習と、それに続くMTRefSeg-21Kでの言語主導のファインチューニングという2段階で学習される、変化対応型のLVLM「MTRefSeg-R1」を提案しています。

新規性

主な新規性は、時間的対応関係の推論、言語グラウンディング、およびピクセルレベルのセグメンテーションを組み合わせた新しいタスクとしてMTRSを定式化した点にあります。また、このタスクのための初の大規模ベンチマークであるMTRefSeg-21K、および明示的な時間的融合と2段階学習を中心に構築された変化対応型LVLMベースライン「MTRefSeg-R1」を提供した点も貢献です。

成果

実験により、既存の単一時期LVLMを用いた直接推論の性能は不十分であり、MTRefSeg-21Kでのファインチューニングにより結果は大幅に改善するものの、依然として提案モデルには及ばないことが示されました。MTRefSeg-R1は主要な設定全体で最高の平均性能を達成し、平均ベンチマークで65.68のmIoUと71.65のPr@50を記録したほか、Train→Valで68.24 mIoU、RS→RS設定で68.92 mIoUに達しました。さらにアブレーション研究により、第1段階の視覚的変化事前学習とフルファインチューニングの組み合わせが、エンドツーエンドのマルチモーダル事前学習やLoRAベースの適応化よりも性能を向上させることが示されています。

論文の注目点

  1. MTRefSeg-21Kは、一般的なシーンおよびリモートセンシング画像にわたる9,521組の画像ペアと20,924件の言語グラウンディング付き変化マスクを備えた、マルチドメインのMTRSベンチマークである。
  2. ベンチマーク評価により、単一時期のLVLMはタスク固有の適応化を行わなければ、言語主導の時間的変化セグメンテーションタスクにおいて十分な性能を発揮しないことが示された。
  3. MTRefSeg-R1は、明示的な変化対応型の時間的融合と2段階学習を組み合わせることで、全体的およびリモートセンシングの評価環境において、LVLMベースとして報告されている中で最も強力な性能を実現する。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。