論文の概要: An Open-Source Benchmark and Baseline for Multi-temporal Referring Segmentation
- arxiv url: http://arxiv.org/abs/2606.00987v1
- Date: Sun, 31 May 2026 04:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.014986
- Title: An Open-Source Benchmark and Baseline for Multi-temporal Referring Segmentation
- Title(参考訳): 複数時間参照セグメンテーションのためのオープンソースベンチマークとベースライン
- Authors: Bingyu Li, Da Zhang, Tao Huo, Zhiyuan Zhao, Junyu Gao, Xuelong Li,
- Abstract要約: textbfMulti-temporal Referring (MTRS) は,多時間画像から言語記述の時間変化を分割することを目的とした新しいタスクである。
MTRSは、時間対応推論、言語接地、ピクセルレベルのマスク予測を共同で要求することで、従来の参照セグメンテーションと変更検出を拡張している。
MTRefSeg-R1は,既存のLVLMベースラインと比較して,強靭かつしばしば優れた性能を示す。
- 参考スコア(独自算出の注目度): 55.291219073365546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have shown strong visual understanding and language-guided grounding abilities, yet their capacity for multi-temporal visual reasoning remains underexplored. To bridge this gap, we introduce \textbf{Multi-temporal Referring Segmentation (MTRS)}, a new task that aims to segment language-described temporal changes from multi-temporal images. MTRS extends conventional referring segmentation and change detection by jointly requiring temporal correspondence reasoning, language grounding, and pixel-level mask prediction. We propose \textbf{CRAFT-Agent}, an automated data construction pipeline with human auditing, and build \textbf{MTRefSeg-21K}, the first MTRS benchmark, containing 21K high-quality multi-temporal image-text-mask triplets across diverse scenes, viewpoints, and domains. Benchmarking a broad set of VLM- and LVLM-based models reveals that direct inference performs poorly, while task-specific fine-tuning remains limited. To address this, we propose \textbf{MTRefSeg-R1}, a change-aware LVLM framework trained with a two-stage strategy. It first learns general temporal-change perception from 20K vision-only bi-temporal samples, and is then fine-tuned on MTRefSeg-21K for fine-grained language-guided temporal localization. MTRefSeg-R1 explicitly models cross-temporal visual differences, aligns language instructions with temporal variations, and predicts referred change masks. Extensive experiments show that MTRefSeg-R1 achieves strong and often superior performance compared with existing LVLM baselines, demonstrating the challenge and potential of MTRS.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、強力な視覚的理解と言語誘導の基盤能力を示すが、多時間的視覚的推論の能力は未熟である。
このギャップを埋めるために,多時間画像から言語記述の時間変化をセグメント化することを目的とした新しいタスクである MTRS (textbf{Multi-temporal Referring Segmentation) を導入する。
MTRSは、時間対応推論、言語接地、ピクセルレベルのマスク予測を共同で要求することで、従来の参照セグメンテーションと変更検出を拡張している。
本稿では,人間の監査機能を備えた自動データ構築パイプラインである \textbf{CRAFT-Agent} と,MTRS の最初のベンチマークである \textbf{MTRefSeg-21K} を提案する。
広範囲のVLMおよびLVLMベースのモデルのベンチマークでは、直接推論が不十分であり、タスク固有の微調整は限定的である。
そこで本稿では,2段階戦略でトレーニングした変更対応のLVLMフレームワークである \textbf{MTRefSeg-R1} を提案する。
まず、20K視覚のみのバイテンポラルサンプルから一般的な時間変化知覚を学習し、MTRefSeg-21Kで微調整して言語誘導の時間的局所化を行う。
MTRefSeg-R1は、時間的な視覚的差異を明示的にモデル化し、言語命令を時間的な変化と整列させ、参照される変更マスクを予測する。
大規模な実験により、MTRefSeg-R1は既存のLVLMベースラインと比較して強く、しばしば優れた性能を示し、MTRSの課題と可能性を示している。
関連論文リスト
- Vision Inference Former: Sustaining Visual Consistency in Multimodal Large Language Models [58.9387276447485]
視覚推論 前者(VIF)は、純粋な視覚表現とモデルの出力空間の間の橋渡しを確立する軽量アーキテクチャモジュールである。
一般的な推論、OCR、テーブル理解、視覚中心の評価、幻覚を含む14のベンチマークタスクについて実験を行った。
論文 参考訳(メタデータ) (2026-05-18T10:04:22Z) - Seg-Agent: Test-Time Multimodal Reasoning for Training-Free Language-Guided Segmentation [52.8308168727975]
Seg-Agentは完全にトレーニング不要のフレームワークで、Explicit Multimodal Chain-of-Reasoningの先駆者です。
提案手法は, 生成, 選択, 洗練の3段階からなる対話型視覚推論ループを構築する。
various-LangSegは、明示的なセマンティック、ジェネリックオブジェクト、推論誘導セグメンテーションタスクをカバーする新しいベンチマークである。
論文 参考訳(メタデータ) (2026-05-13T03:36:44Z) - Bridging Time and Space: Decoupled Spatio-Temporal Alignment for Video Grounding [6.673833357112721]
textbfBridge-STGは、意味的コヒーレンスを維持しながら時間的および空間的ローカライゼーションを分離するエンドツーエンドフレームワークである。
Bridge-STGはMLLM方式の最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-09T09:14:00Z) - Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining [86.49790441700195]
ClusterSTMは、効率的なビデオ言語事前学習のためのクラスタワイズ時空間マスキング戦略である。
従来の視覚的再構成以上の高レベルなマルチモーダル・セマンティクスを整列するビデオテキスト関連性再構築手法を提案する。
論文 参考訳(メタデータ) (2026-03-24T08:48:15Z) - Temporal Grounding as a Learning Signal for Referring Video Object Segmentation [29.646697516547558]
Referring Video Object (RVOS)は、自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションと追跡を目的としており、ビジュアルコンテンツとテキストクエリの正確なアライメントを必要とする。
既存の手法は、主に訓練中にフレームサンプリングとすべての可視物体の監督が区別できないため、意味的ミスアライメントに悩まされることが多い。
私たちは、MeViSベンチマークに基づいて構築されたデータセットであるMeViS-Mを紹介します。
論文 参考訳(メタデータ) (2025-08-16T07:34:43Z) - Teaching Time Series to See and Speak: Forecasting with Aligned Visual and Textual Perspectives [22.10401153489018]
時系列の予測は伝統的に単調な数値入力に依存している。
生の時系列を構造化された視覚的・テキスト的視点に変換するマルチモーダルコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T17:59:14Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。