論文の概要: AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting
- arxiv url: http://arxiv.org/abs/2506.01015v1
- Date: Sun, 01 Jun 2025 13:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.897089
- Title: AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting
- Title(参考訳): AuralSAM2: ピラミッド・オーディオ・ビジュアル・フィーチャー・プロンプティングによるSAM2の聴取
- Authors: Yuyuan Liu, Yuanhong Chen, Chong Wang, Junlin Han, Junde Wu, Can Peng, Jingkun Chen, Yu Tian, Gustavo Carneiro,
- Abstract要約: AuralSAM2は、新しいAuralFuserモジュールで構成されており、SAM2に外部にアタッチして異なるモジュールの機能を統合している。
この統合は、機能ピラミッドによって促進され、セマンティック理解をさらに洗練し、オブジェクトの認識を高める。
公開ベンチマークの結果から,本手法は従来の手法よりも顕著に改善されていることが示唆された。
- 参考スコア(独自算出の注目度): 23.76682709034273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Model 2 (SAM2) exhibits strong generalisation for promptable segmentation in video clips; however, its integration with the audio modality remains underexplored. Existing approaches mainly follow two directions: (1) injecting adapters into the image encoder to receive audio signals, which incurs efficiency costs during prompt engineering, and (2) leveraging additional foundation models to generate visual prompts for the sounding objects, which are often imprecisely localised, leading to misguidance in SAM2. Moreover, these methods overlook the rich semantic interplay between hierarchical visual features and other modalities, resulting in suboptimal cross-modal fusion. In this work, we propose AuralSAM2, comprising the novel AuralFuser module, which externally attaches to SAM2 to integrate features from different modalities and generate feature-level prompts, guiding SAM2's decoder in segmenting sounding targets. Such integration is facilitated by a feature pyramid, further refining semantic understanding and enhancing object awareness in multimodal scenarios. Additionally, the audio-guided contrastive learning is introduced to explicitly align audio and visual representations and to also mitigate biases caused by dominant visual patterns. Results on public benchmarks show that our approach achieves remarkable improvements over the previous methods in the field. Code is available at https://github.com/yyliu01/AuralSAM2.
- Abstract(参考訳): Segment Anything Model 2 (SAM2) は、ビデオクリップにおける迅速なセグメンテーションの強力な一般化を示すが、オーディオモダリティとの統合は未定である。
既存のアプローチは主に,(1) 画像エンコーダにアダプタを注入して音声信号を受信する,(2) 即時処理の効率を損なう,(2) 音響オブジェクトの視覚的プロンプトを生成するための基礎モデルを活用する,という2つの方法に従っている。
さらに,これらの手法は階層的視覚特徴と他のモダリティとの豊かなセマンティックな相互作用を軽視し,準最適モーダル融合をもたらす。
本研究では,新しい AuralFuser モジュールの AuralSAM2 を提案する。AuralSAM2 は SAM2 に外部からアタッチされ,異なるモダリティの機能を統合し,特徴レベルのプロンプトを生成し,SAM2 のデコーダをセグメント化ターゲットに導く。
このような統合は、機能ピラミッドによって促進され、セマンティック理解をさらに洗練し、マルチモーダルシナリオにおけるオブジェクトの認識を高める。
さらに、音声誘導型コントラスト学習を導入し、音声および視覚表現を明確に整列させ、また、支配的な視覚パターンによるバイアスを軽減する。
公開ベンチマークの結果から,本手法は従来の手法よりも顕著に改善されていることが示唆された。
コードはhttps://github.com/yyliu01/AuralSAM2.comで入手できる。
関連論文リスト
- SAM2-LOVE: Segment Anything Model 2 in Language-aided Audio-Visual Scenes [30.870903750545004]
本稿では,テキスト,音声,視覚表現を学習可能なトークンに統合する新しいフレームワークSAM2-LOVEを紹介する。
技術的には、SAM2のマルチモーダル理解を改善することを目的としたマルチモーダル融合モジュールを含む。
SAM2-LOVEは、Ref-AVSベンチマークにおいて、$calmathJ&F$において、SOTAよりも8.5%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-02T11:36:25Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [13.887164304514101]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction [5.13730975608994]
映像中の有声領域を識別することで人間の視覚的注意を模倣することを目的としている。
本稿では,精度と計算効率の両立を図った新しいオーディオ・ビジュアル・サリエンシ予測フレームワークであるDFTSalを提案する。
論文 参考訳(メタデータ) (2025-04-14T10:17:25Z) - AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Transavs: End-To-End Audio-Visual Segmentation With Transformer [33.56539999875508]
本稿では,トランスフォーマーをベースとしたオーディオ・ビジュアルタスクのためのエンドツーエンドフレームワークであるTransAVSを提案する。
TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、セグメンテーションマスクにデコードする。
実験の結果,TransAVS は AVSBench データセット上で最先端の結果を得ることができた。
論文 参考訳(メタデータ) (2023-05-12T03:31:04Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。