論文の概要: SAM2-LOVE: Segment Anything Model 2 in Language-aided Audio-Visual Scenes
- arxiv url: http://arxiv.org/abs/2506.01558v1
- Date: Mon, 02 Jun 2025 11:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.290111
- Title: SAM2-LOVE: Segment Anything Model 2 in Language-aided Audio-Visual Scenes
- Title(参考訳): SAM2-LOVE:Segment Anything Model 2 in Language-Aided Audio-Visual Scenes
- Authors: Yuji Wang, Haoran Xu, Yong Liu, Jiaze Li, Yansong Tang,
- Abstract要約: 本稿では,テキスト,音声,視覚表現を学習可能なトークンに統合する新しいフレームワークSAM2-LOVEを紹介する。
技術的には、SAM2のマルチモーダル理解を改善することを目的としたマルチモーダル融合モジュールを含む。
SAM2-LOVEは、Ref-AVSベンチマークにおいて、$calmathJ&F$において、SOTAよりも8.5%高い性能を示した。
- 参考スコア(独自算出の注目度): 30.870903750545004
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reference Audio-Visual Segmentation (Ref-AVS) aims to provide a pixel-wise scene understanding in Language-aided Audio-Visual Scenes (LAVS). This task requires the model to continuously segment objects referred to by text and audio from a video. Previous dual-modality methods always fail due to the lack of a third modality and the existing triple-modality method struggles with spatio-temporal consistency, leading to the target shift of different frames. In this work, we introduce a novel framework, termed SAM2-LOVE, which integrates textual, audio, and visual representations into a learnable token to prompt and align SAM2 for achieving Ref-AVS in the LAVS. Technically, our approach includes a multimodal fusion module aimed at improving multimodal understanding of SAM2, as well as token propagation and accumulation strategies designed to enhance spatio-temporal consistency without forgetting historical information. We conducted extensive experiments to demonstrate that SAM2-LOVE outperforms the SOTA by 8.5\% in $\mathcal{J\&F}$ on the Ref-AVS benchmark and showcase the simplicity and effectiveness of the components. Our code will be available here.
- Abstract(参考訳): Ref-AVS(Reference Audio-Visual Segmentation)は、Language-Aided Audio-Visual Scenes(LAVS)における画素単位のシーン理解を提供することを目的としている。
このタスクでは、ビデオからテキストやオーディオによって参照されるオブジェクトを連続的にセグメントする必要がある。
従来の二重モダリティ法は常に第3のモダリティの欠如によって失敗し、既存の三重モダリティ法は時空間一貫性に苦しむため、異なるフレームの目標シフトにつながる。
本研究では,テキスト,音声,視覚表現を学習可能なトークンに統合し,LAVSにおけるRef-AVSの実現に向けてSAM2をプロンプト・アライメントする新しいフレームワークSAM2-LOVEを提案する。
技術的には、SAM2のマルチモーダル理解向上を目的としたマルチモーダル融合モジュールと、過去の情報を忘れることなく時空間整合性を高めるために設計されたトークンの伝播と蓄積戦略を含む。
SAM2-LOVEは、Ref-AVSベンチマークにおいて、$\mathcal{J\&F}$8.5\%でSOTAより優れた性能を示し、コンポーネントの単純さと有効性を示した。
私たちのコードはここで利用可能です。
関連論文リスト
- AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting [23.76682709034273]
AuralSAM2は、新しいAuralFuserモジュールで構成されており、SAM2に外部にアタッチして異なるモジュールの機能を統合している。
この統合は、機能ピラミッドによって促進され、セマンティック理解をさらに洗練し、オブジェクトの認識を高める。
公開ベンチマークの結果から,本手法は従来の手法よりも顕著に改善されていることが示唆された。
論文 参考訳(メタデータ) (2025-06-01T13:57:42Z) - 4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文 参考訳(メタデータ) (2025-04-01T07:06:47Z) - AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3379755761583]
Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。
セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。
本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
論文 参考訳(メタデータ) (2025-01-07T18:58:54Z) - SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation [4.166500345728911]
ビデオオブジェクトの参照(RVOS)は、ビデオクリップ内のオブジェクトをセグメントする自然言語表現に依存する。
私たちは、堅牢なセグメンテーションとトラッキング機能を提供するSegment-Anything 2 (SAM2)モデルを構築します。
本稿では,特徴抽出プロセスにおいて,時間的情報やマルチモーダルな手がかりを注入する新しいアダプタモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T18:10:54Z) - Extending Segment Anything Model into Auditory and Temporal Dimensions for Audio-Visual Segmentation [17.123212921673176]
本稿では,SAMのエンコーダとマスクデコーダの中間部分に組み込まれた時空間バイビジュアルアテンション(ST-B)モジュールを提案する。
ビデオフレームとオーディオストリーム間の時間的対応を伝達するために、オーディオ視覚機能を適応的に更新する。
提案手法は, AVSベンチマークの最先端手法, 特に8.3% mIoU が, 挑戦的なマルチソースサブセットよりも優れている。
論文 参考訳(メタデータ) (2024-06-10T10:53:23Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。