論文の概要: Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2508.04418v1
- Date: Wed, 06 Aug 2025 13:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.727518
- Title: Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation
- Title(参考訳): セグメンテーションの前に考える:オーディオ・ビジュアル・セグメンテーションを参考にするオブジェクト認識推論エージェント
- Authors: Jinxing Zhou, Yanghao Zhou, Mingfei Han, Tong Wang, Xiaojun Chang, Hisham Cholakkal, Rao Muhammad Anwer,
- Abstract要約: Ref-AVSは、対象のオブジェクトを所定の参照表現に基づいて可聴ビデオに分割することを目的としている。
本稿では,タスクをThink-Ground-Segmentプロセスに分解するTGS-Agentを提案する。
Ref-Thinkerはマルチモーダル言語モデルであり、テキスト、視覚、聴覚の手がかりを推論することができる。
- 参考スコア(独自算出の注目度): 61.37076111486196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Audio-Visual Segmentation (Ref-AVS) aims to segment target objects in audible videos based on given reference expressions. Prior works typically rely on learning latent embeddings via multimodal fusion to prompt a tunable SAM/SAM2 decoder for segmentation, which requires strong pixel-level supervision and lacks interpretability. From a novel perspective of explicit reference understanding, we propose TGS-Agent, which decomposes the task into a Think-Ground-Segment process, mimicking the human reasoning procedure by first identifying the referred object through multimodal analysis, followed by coarse-grained grounding and precise segmentation. To this end, we first propose Ref-Thinker, a multimodal language model capable of reasoning over textual, visual, and auditory cues. We construct an instruction-tuning dataset with explicit object-aware think-answer chains for Ref-Thinker fine-tuning. The object description inferred by Ref-Thinker is used as an explicit prompt for Grounding-DINO and SAM2, which perform grounding and segmentation without relying on pixel-level supervision. Additionally, we introduce R\textsuperscript{2}-AVSBench, a new benchmark with linguistically diverse and reasoning-intensive references for better evaluating model generalization. Our approach achieves state-of-the-art results on both standard Ref-AVSBench and proposed R\textsuperscript{2}-AVSBench. Code will be available at https://github.com/jasongief/TGS-Agent.
- Abstract(参考訳): Referring Audio-Visual Segmentation (Ref-AVS) は、対象物を所定の参照表現に基づいて可聴ビデオに分割することを目的としている。
従来の研究は、マルチモーダル融合による潜伏埋め込みの学習に頼り、セグメンテーションのための可変SAM/SAM2デコーダを誘導する。
そこで本研究では,まず参照対象をマルチモーダル解析により識別し,さらに粗いグラウンドと正確なセグメンテーションによって,人間の推論手順を模倣して,タスクをThink-Ground-Segmentプロセスに分解するTGS-Agentを提案する。
そこで我々はまず,テキスト,視覚,聴覚の手がかりを推論できるマルチモーダル言語モデルRef-Thinkerを提案する。
本稿では,Ref-Thinkerファインタニングのための明示的なオブジェクト認識型シンク・アンサーチェーンを用いたインストラクションチューニングデータセットを構築した。
Ref-Thinkerによって推論されたオブジェクト記述は、グラウンディング・ディノとSAM2の明示的なプロンプトとして使用され、ピクセルレベルの監督に頼ることなくグラウンドディングとセグメンテーションを行う。
さらに、R\textsuperscript{2}-AVSBenchという言語学的に多様で推論集約的な参照を持つ新しいベンチマークを導入し、モデルの一般化を評価する。
提案手法は,標準Ref-AVSBenchとR\textsuperscript{2}-AVSBenchの両方に対して,最先端の結果を得る。
コードはhttps://github.com/jasongief/TGS-Agent.comから入手できる。
関連論文リスト
- SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes [11.575313825919205]
参照音声・視覚的伝統(Ref-AVS)と呼ばれる新しいタスクを導入する。
Ref-AVSはマルチモーダルキューを含む式に基づいてオブジェクトをセグメント化する。
本稿では,マルチモーダルキューを適切に活用し,正確なセグメンテーションガイダンスを提供する手法を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:54:45Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - RefVOS: A Closer Look at Referring Expressions for Video Object
Segmentation [8.80595950124721]
我々は,新しいニューラルネットワークを用いて,言語誘導型VOSにおける言語誘導型画像セグメンテーションの結果と技術結果の状態を解析する。
本研究は,タスクの大きな課題が動作や静的動作の理解に関連していることを示唆する。
論文 参考訳(メタデータ) (2020-10-01T09:10:53Z) - Ref-NMS: Breaking Proposal Bottlenecks in Two-Stage Referring Expression
Grounding [80.46288064284084]
Ref-NMSは、最初の段階で式対応の提案を出力する最初の方法である。
Ref-NMSは、式中のすべての名詞をクリティカルオブジェクトとみなし、各ボックスをクリティカルオブジェクトと整合させるスコアを予測する軽量モジュールを導入している。
Ref-NMSは接地ステップに依存しないため、最先端の2段階法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-09-03T05:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。