論文の概要: Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent Alignment
- arxiv url: http://arxiv.org/abs/2503.12847v1
- Date: Mon, 17 Mar 2025 05:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:29:08.349890
- Title: Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent Alignment
- Title(参考訳): オーディオ誘導型ビジュアルコンバージェントアライメントによるロバスト・オーディオ・ビジュアルセグメンテーション
- Authors: Chen Liu, Peike Li, Liying Yang, Dadong Wang, Lincheng Li, Xin Yu,
- Abstract要約: 音声-視覚的手がかりに基づく聴覚オブジェクトの正確な位置決めは、音声-視覚的セグメンテーションの中核的な目的である。
本稿では,AMAモジュールとUEモジュールの2つの主要コンポーネントを持つ新しいフレームワークを提案する。
AMAは、複数のグループ内で音声と視覚の相互作用を実行し、オーディオキューに対する応答性に基づいて、グループ機能をコンパクトな表現に集約する。
UEは空間情報と時間情報を統合し、音状態の頻繁な変化に起因する高不確かさ領域を識別する。
- 参考スコア(独自算出の注目度): 26.399212357764576
- License:
- Abstract: Accurately localizing audible objects based on audio-visual cues is the core objective of audio-visual segmentation. Most previous methods emphasize spatial or temporal multi-modal modeling, yet overlook challenges from ambiguous audio-visual correspondences such as nearby visually similar but acoustically different objects and frequent shifts in objects' sounding status. Consequently, they may struggle to reliably correlate audio and visual cues, leading to over- or under-segmentation. To address these limitations, we propose a novel framework with two primary components: an audio-guided modality alignment (AMA) module and an uncertainty estimation (UE) module. Instead of indiscriminately correlating audio-visual cues through a global attention mechanism, AMA performs audio-visual interactions within multiple groups and consolidates group features into compact representations based on their responsiveness to audio cues, effectively directing the model's attention to audio-relevant areas. Leveraging contrastive learning, AMA further distinguishes sounding regions from silent areas by treating features with strong audio responses as positive samples and weaker responses as negatives. Additionally, UE integrates spatial and temporal information to identify high-uncertainty regions caused by frequent changes in sound state, reducing prediction errors by lowering confidence in these areas. Experimental results demonstrate that our approach achieves superior accuracy compared to existing state-of-the-art methods, particularly in challenging scenarios where traditional approaches struggle to maintain reliable segmentation.
- Abstract(参考訳): 音声-視覚的手がかりに基づく聴覚オブジェクトの正確な位置決めは、音声-視覚的セグメンテーションの中核的な目的である。
従来の手法では、空間的・時間的マルチモーダルなモデリングが重視されていたが、近傍の視覚的に類似しているが音響的に異なる物体や、物体の聴取状態の頻繁な変化など、曖昧な音声-視覚対応の課題を見落としていた。
その結果、オーディオと視覚的手がかりを確実に関連付けるのに苦労し、過剰または過小評価に繋がる可能性がある。
これらの制約に対処するため、オーディオ誘導モードアライメント(AMA)モジュールと不確実性推定(UE)モジュールの2つの主要コンポーネントを持つ新しいフレームワークを提案する。
AMAは、グローバルアテンションメカニズムを通じて、音声と視覚の手がかりを無差別に関連付ける代わりに、複数のグループ内でオーディオと視覚の相互作用を実行し、オーディオキューに対する応答性に基づいてグループ特徴をコンパクトな表現に集約し、効果的に、そのモデルの注意をオーディオ関連領域に向ける。
対照的な学習を活用することで、AMAは、強い音声応答を持つ特徴を正のサンプルとして、弱い応答を負のサンプルとして扱うことにより、音域をサイレント領域と区別する。
さらに、UEは空間的・時間的情報を統合して、音質の頻繁な変化に起因する高不確かさ領域を識別し、これらの領域の信頼度を下げることで予測誤差を低減する。
実験結果から,従来の手法に比べて精度が優れており,特に従来の手法が信頼性の高いセグメンテーションを維持するのに苦労する場合の難易度が高いことがわかった。
関連論文リスト
- Do Audio-Visual Segmentation Models Truly Segment Sounding Objects? [38.98706069359109]
AVSBench-Robustは、サイレント、環境騒音、オフスクリーン音を含む様々なネガティブなオーディオシナリオを取り入れたベンチマークである。
提案手法は, ほぼ完全な偽陽性率を維持しながら, 標準測定値とロバストネス測定値の両方において顕著な改善を実現している。
論文 参考訳(メタデータ) (2025-02-01T07:40:29Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。