論文の概要: SimToken: A Simple Baseline for Referring Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2509.17537v2
- Date: Tue, 23 Sep 2025 04:04:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 11:50:03.962266
- Title: SimToken: A Simple Baseline for Referring Audio-Visual Segmentation
- Title(参考訳): SimToken: オーディオ・ビジュアル・セグメンテーションを参照するためのシンプルなベースライン
- Authors: Dian Jin, Yanghao Zhou, Jinxing Zhou, Jiaqi Ma, Ruohao Guo, Dan Guo,
- Abstract要約: Referring Audio-Visual (Ref-AVS) は、自然言語表現に基づいて、特定のオブジェクトをビデオに分割することを目的としている。
このタスクは、クロスモーダル推論ときめ細かいオブジェクトローカライゼーションにおいて重要な課題を提起する。
我々はSegment Anything Model(SAM)とMLLM(Multimodal large language model)を統合したSimTokenというフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.88252418748085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Audio-Visual Segmentation (Ref-AVS) aims to segment specific objects in videos based on natural language expressions involving audio, vision, and text information. This task poses significant challenges in cross-modal reasoning and fine-grained object localization. In this paper, we propose a simple framework, SimToken, that integrates a multimodal large language model (MLLM) with the Segment Anything Model (SAM). The MLLM is guided to generate a special semantic token representing the referred object. This compact token, enriched with contextual information from all modalities, acts as a prompt to guide SAM to segment objectsacross video frames. To further improve semantic learning, we introduce a novel target-consistent semantic alignment loss that aligns token embeddings from different expressions but referring to the same object. Experiments on the Ref-AVS benchmark demonstrate that our approach achieves superior performance compared to existing methods.
- Abstract(参考訳): Referring Audio-Visual Segmentation (Ref-AVS)は、音声、視覚、テキスト情報を含む自然言語表現に基づいて、特定のオブジェクトをビデオに分割することを目的としている。
このタスクは、クロスモーダル推論ときめ細かいオブジェクトローカライゼーションにおいて重要な課題を提起する。
本稿では,Segment Anything Model(SAM)とMLLM(Multimodal large language model)を統合したシンプルなフレームワークSimTokenを提案する。
MLLMは、参照オブジェクトを表す特別な意味トークンを生成するためにガイドされる。
このコンパクトトークンは、すべてのモダリティからのコンテキスト情報に富んだもので、SAMをビデオフレームをまたいでオブジェクトを分割するためのプロンプトとして機能する。
さらにセマンティックラーニングを改善するために,異なる表現からトークンを埋め込み,同じオブジェクトを参照する新たなターゲット一貫性セマンティックアライメントロスを導入する。
Ref-AVSベンチマーク実験により,本手法は既存手法と比較して優れた性能を示した。
関連論文リスト
- Unleashing Hierarchical Reasoning: An LLM-Driven Framework for Training-Free Referring Video Object Segmentation [17.238084264485988]
Referring Video Object (RVOS) は、言語記述に基づいて、ビデオ全体を通して関心のあるオブジェクトをセグメントすることを目的としている。
bftextPARSE-VOSは、Large Language Models (LLMs)を利用したトレーニング不要のフレームワークである。
bftextPARSE-VOSは、Ref-YouTube-VOS、Ref-DAVIS17、MeViSの3つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-09-06T15:46:23Z) - VoCap: Video Object Captioning and Segmentation from Any Prompt [78.90048335805047]
VoCapは、ビデオセグメンテーションと様々なモダリティの迅速な理解を消費するフレキシブルモデルである。
プロンプト可能なビデオオブジェクトのセグメンテーション、参照、オブジェクトキャプションに対処する。
本モデルでは,表現対象のセグメンテーションについて,最新の結果が得られる。
論文 参考訳(メタデータ) (2025-08-29T17:43:58Z) - X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。
テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。
インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文 参考訳(メタデータ) (2025-08-06T17:19:10Z) - Audio Visual Segmentation Through Text Embeddings [17.285669984798975]
オーディオ・ビジュアル(AVS)の研究は、詳細な手動アノテーションのコストが高いため、データの不足に悩まされている。
最近の研究はビジョンファウンデーションモデルSegment Anything Model(SAM)を活用して、限られたデータの課題を克服しようとしている。
我々は、事前訓練されたテキストプロンプトSAMのテキスト埋め込み空間で音声特徴をブリッジする新しいフレームワーク、textbfAV2T-SAMを提案する。
論文 参考訳(メタデータ) (2025-02-22T21:15:44Z) - Referring Video Object Segmentation via Language-aligned Track Selection [30.226373787454833]
ビデオオブジェクトセグメンテーション(RVOS)は、所定の自然言語表現に従って、ビデオを通してオブジェクトを追跡し、セグメンテーションする必要がある。
我々はSAM2オブジェクトトークンをコンパクトなビデオレベルオブジェクト表現として活用する新しいフレームワークであるSOLAを紹介する。
実験によると、SOLAはMeViSデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-02T05:20:35Z) - Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes [11.575313825919205]
参照音声・視覚的伝統(Ref-AVS)と呼ばれる新しいタスクを導入する。
Ref-AVSはマルチモーダルキューを含む式に基づいてオブジェクトをセグメント化する。
本稿では,マルチモーダルキューを適切に活用し,正確なセグメンテーションガイダンスを提供する手法を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:54:45Z) - Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:20:07Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。