論文の概要: DDAVS: Disentangled Audio Semantics and Delayed Bidirectional Alignment for Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2512.20117v1
- Date: Tue, 23 Dec 2025 07:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.785437
- Title: DDAVS: Disentangled Audio Semantics and Delayed Bidirectional Alignment for Audio-Visual Segmentation
- Title(参考訳): DDAVS:オーディオ・ビジュアル・セマンティックスと遅延双方向アライメント
- Authors: Jingqi Tian, Yiheng Du, Haoji Zhang, Yuji Wang, Isaac Ning Lee, Xulong Bai, Tianrui Zhu, Jingxuan Niu, Yansong Tang,
- Abstract要約: Audio-Visualは、聴覚情報と視覚情報を共同で活用することで、オブジェクトをピクセルレベルでローカライズすることを目的としている。
既存の手法は、しばしばマルチソースの絡み合いとオーディオ-視覚的ミスアライメントに悩まされる。
本稿では,Distangled Audio SemanticsとDelayed Bidirectional Alignmentフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.30812530784719
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio-Visual Segmentation (AVS) aims to localize sound-producing objects at the pixel level by jointly leveraging auditory and visual information. However, existing methods often suffer from multi-source entanglement and audio-visual misalignment, which lead to biases toward louder or larger objects while overlooking weaker, smaller, or co-occurring sources. To address these challenges, we propose DDAVS, a Disentangled Audio Semantics and Delayed Bidirectional Alignment framework. To mitigate multi-source entanglement, DDAVS employs learnable queries to extract audio semantics and anchor them within a structured semantic space derived from an audio prototype memory bank. This is further optimized through contrastive learning to enhance discriminability and robustness. To alleviate audio-visual misalignment, DDAVS introduces dual cross-attention with delayed modality interaction, improving the robustness of multimodal alignment. Extensive experiments on the AVS-Objects and VPO benchmarks demonstrate that DDAVS consistently outperforms existing approaches, exhibiting strong performance across single-source, multi-source, and multi-instance scenarios. These results validate the effectiveness and generalization ability of our framework under challenging real-world audio-visual segmentation conditions. Project page: https://trilarflagz.github.io/DDAVS-page/
- Abstract(参考訳): オーディオ・ビジュアル・セグメンテーション (AVS) は、聴覚情報と視覚情報とを併用することにより、音をピクセルレベルでローカライズすることを目的としている。
しかし、既存の手法は、しばしばマルチソースの絡み合いやオーディオと視覚の相違に悩まされ、より弱く、より小さく、または共起的な音源を見落としながら、より大きな物体に偏りが生じる。
これらの課題に対処するため、DDAVS(Disentangled Audio Semantics and Delayed Bidirectional Alignment framework)を提案する。
マルチソースの絡み合いを軽減するため、DDAVSは学習可能なクエリを使用して、オーディオのセマンティクスを抽出し、オーディオプロトタイプメモリバンクから派生した構造化セマンティクス空間に固定する。
これは、差別性と堅牢性を高めるために、対照的な学習を通じてさらに最適化される。
音声・視覚的不一致を軽減するため、DDAVSは遅延モーダル相互作用を伴う二重交差注意を導入し、マルチモーダルアライメントの堅牢性を向上させる。
AVS-ObjectsとVPOベンチマークに関する大規模な実験は、DDAVSが既存のアプローチを一貫して上回り、シングルソース、マルチソース、マルチインスタンスのシナリオで強力なパフォーマンスを示していることを示している。
これらの結果から,実環境における音声・視覚的セグメンテーションの課題におけるフレームワークの有効性と一般化能力が検証された。
プロジェクトページ:https://trilarflagz.github.io/DDAVS-page/
関連論文リスト
- Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。