論文の概要: Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2605.09906v1
- Date: Mon, 11 May 2026 02:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.482077
- Title: Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought
- Title(参考訳): 第1に, 第2に: モーダル・オブ・サートによるオーディオ・ビジュアル LLM の相互干渉の緩和
- Authors: Xuanchen Li, Yuheng Lu, Chenrui Cui, Tianrui Wang, Zikang Huang, Yu Jiang, Long Zhou, Longbiao Wang, Jianwu Dang,
- Abstract要約: モーダル間干渉を低減するための音声・視覚的推論フレームワークとして, 分離ファースト, ファウズ・レイト (SFFL) を提案する。
SFFLは、モーダリティ固有の連鎖推論を強制し、別々の音声および視覚的推論トレースを生成し、答えのエビデンスを統合する。
実験では精度と頑健さの両面で一貫した改善が示され、一般的なAVQAベンチマークでは5.16%、クロスモーダル幻覚ベンチマークでは11.17%の平均的な相対的な増加が得られた。
- 参考スコア(独自算出の注目度): 49.53567098922619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio and vision provide complementary evidence for audio-visual question answering, yet current audio-visual large language models may suffer from cross-modal interference: information from one modality misguides the interpretation of another, thereby inducing hallucinations. We attribute this issue to uncontrolled cross-modal interactions during intermediate reasoning. To mitigate this, we propose Separate First, Fuse Later (SFFL), an audio-visual reasoning framework designed to reduce cross-modal interference. SFFL enforces modality-specific chain-of-thought reasoning, producing separate audio and visual reasoning traces and integrating evidence for answering. We construct modality-preference labels via a data pipeline under different modality input settings. We use these labels as an auxiliary reward in reinforcement learning to encourage a instance-dependent preference for modality cues when answering. We further introduce a modality-specific reasoning mechanism that preserves modality isolation during the separated reasoning stage while enabling full access to cross-modal information at the evidence fusion stage. Experiments demonstrate consistent improvements in both accuracy and robustness, yielding an average relative gain of 5.16\% on general AVQA benchmarks and 11.17\% on a cross-modal hallucination benchmark.
- Abstract(参考訳): 音声と視覚は、音声と視覚の質問応答を補完する証拠を提供するが、現在の音声と視覚の大きい言語モデルは、相互の干渉に悩まされる可能性がある。
中間的推論において、この問題は制御不能な相互モーダル相互作用に起因している。
これを軽減するために,モーダル間干渉を低減するための音声視覚推論フレームワークであるSeparate First, Fuse Later (SFFL)を提案する。
SFFLは、モーダリティ固有の連鎖推論を強制し、別々の音声および視覚的推論トレースを生成し、答えのエビデンスを統合する。
モーダリティの入力設定が異なるデータパイプラインを用いてモーダリティ参照ラベルを構築する。
我々はこれらのラベルを強化学習における補助的な報酬として使用し、応答時のモダリティの選好をインスタンス依存で促進する。
さらに、分離された推論段階におけるモダリティ分離を保ちつつ、エビデンス融合段階におけるクロスモーダル情報への完全なアクセスを可能にするモダリティ特異的推論機構を導入する。
実験は精度とロバスト性の両方で一貫した改善を示し、一般的なAVQAベンチマークでは5.16\%、クロスモーダル幻覚ベンチマークでは11.17\%となる。
関連論文リスト
- PRIMED: Adaptive Modality Suppression for Referring Audio-Visual Segmentation via Biased Competition [9.145417637255651]
Referring Audio-Visual (Ref-AVS)は、視覚的、聴覚的、テキスト的参照キューに基づいて、ターゲットオブジェクトをビデオフレームにローカライズし、セグメント化する。
本稿では,認知神経科学における偏りのある競合理論に着想を得たPRIMEDを提案する。
論文 参考訳(メタデータ) (2026-05-08T02:40:34Z) - Membership Inference Attacks against Large Audio Language Models [50.84901010528239]
大規模音声言語モデル(LALM)のMIA評価について述べる。
テキスト,スペクトル,韻律的特徴に基づくマルチモーダルブラインドベースラインを用いて,一般的な音声データセットがほぼ完璧な列車/テスト分離性を示すことを示す。
以上の結果から, LALM検査の基準基準が確立された。
論文 参考訳(メタデータ) (2026-03-30T12:45:28Z) - High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Answering Diverse Questions via Text Attached with Key Audio-Visual
Clues [24.347420432207283]
本稿では,相互相関蒸留(MCD)を行うための枠組みを提案する。
提案手法は,複数の問合せ対を含む2つの公開データセットに対して評価する。
論文 参考訳(メタデータ) (2024-03-11T12:51:37Z) - Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video
Parsing [58.9467115916639]
本研究では, 核融合における非相関なクロスモーダルコンテキストを低減するために, メッセンジャー誘導型中間核融合変換器を提案する。
メッセンジャーは、完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。
そこで我々は,無関係な音声情報の視覚事象予測への影響を抑えるために,クロスオーディオ予測整合性を提案する。
論文 参考訳(メタデータ) (2023-11-14T13:27:03Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。