論文の概要: When Eyes and Ears Disagree: Can MLLMs Discern Audio-Visual Confusion?
- arxiv url: http://arxiv.org/abs/2511.10059v1
- Date: Fri, 14 Nov 2025 01:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.670991
- Title: When Eyes and Ears Disagree: Can MLLMs Discern Audio-Visual Confusion?
- Title(参考訳): MLLMは視線と耳の融合を識別できるのか?
- Authors: Qilang Ye, Wei Zeng, Meng Liu, Jie Zhang, Yupeng Hu, Zitong Yu, Yu Zhou,
- Abstract要約: 実験結果から,Multimodal Large Language Models (MLLM) は視覚的に支配的な推論のため,存在しない音声の識別に苦慮していることが明らかとなった。
本稿では,RL-CoMM(Reinforcement Learning-based Collaborative Multi-MLLM)を紹介する。
1)視覚的に支配されるあいまいさを緩和するために、音声のみの推論を生成するための参照モデルとして、外部モデルであるLarge Audio Language Model (LALM)を導入する。
- 参考スコア(独自算出の注目度): 41.579901082251254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can Multimodal Large Language Models (MLLMs) discern confused objects that are visually present but audio-absent? To study this, we introduce a new benchmark, AV-ConfuseBench, which simulates an ``Audio-Visual Confusion'' scene by modifying the corresponding sound of an object in the video, e.g., mute the sounding object and ask MLLMs Is there a/an muted-object sound''. Experimental results reveal that MLLMs, such as Qwen2.5-Omni and Gemini 2.5, struggle to discriminate non-existent audio due to visually dominated reasoning. Motivated by this observation, we introduce RL-CoMM, a Reinforcement Learning-based Collaborative Multi-MLLM that is built upon the Qwen2.5-Omni foundation. RL-CoMM includes two stages: 1) To alleviate visually dominated ambiguities, we introduce an external model, a Large Audio Language Model (LALM), as the reference model to generate audio-only reasoning. Then, we design a Step-wise Reasoning Reward function that enables MLLMs to self-improve audio-visual reasoning with the audio-only reference. 2) To ensure an accurate answer prediction, we introduce Answer-centered Confidence Optimization to reduce the uncertainty of potential heterogeneous reasoning differences. Extensive experiments on audio-visual question answering and audio-visual hallucination show that RL-CoMM improves the accuracy by 10~30\% over the baseline model with limited training data. Follow: https://github.com/rikeilong/AVConfusion.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的に存在するが、オーディオを伴わない混乱したオブジェクトを識別できるか?
そこで本研究では,映像中のオブジェクトの対応する音,例えば,音をミュートし,MLLMを問うことで,‘Audio-Visual Confusion’シーンをシミュレートするベンチマークAV-ConfuseBenchを紹介する。
実験結果から,Qwen2.5-Omni や Gemini 2.5 のようなMLLMは,視覚的に支配的な推論のため,存在しない音声の識別に苦慮していることが明らかとなった。
本稿では,Qwen2.5-Omni基盤上に構築された強化学習に基づく協調型MLLMであるRL-CoMMを紹介する。
RL-CoMMには2つのステージがある。
1)視覚的に支配されるあいまいさを軽減するため,音声のみの推論を生成するための参照モデルとして,外部モデルであるLarge Audio Language Model(LALM)を導入する。
そして,音声のみの参照でMLLMを自己改善可能なステップワイズ推論・リワード関数を設計する。
2) 精度の高い解答予測を実現するため, 不均一な推論の相違を解消するために, アンスワー中心の信頼度最適化を導入する。
RL-CoMMはトレーニングデータに制限のあるベースラインモデルよりも10~30倍精度が向上することを示す。
以下は、https://github.com/rikeilong/AVConfusion。
関連論文リスト
- Investigating Modality Contribution in Audio LLMs for Music [8.118262908070152]
オーディオ大言語モデル(Audio LLMs)は、人間の音楽に関する会話を可能にする。
音声を本当に聴いているのか、それとも単にテキストによる推論を使っているのかは不明だ。
本稿では,モデル出力に対する各モダリティの寄与を定量化し,この問題を考察する。
論文 参考訳(メタデータ) (2025-09-25T00:56:35Z) - SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models [18.802543558300044]
より強力なLVLM教師から弱いLALM学生に高度な推論を伝達するクロスモーダル蒸留フレームワークであるSightSound-R1を提案する。
その結果、SightSound-R1は、ドメイン内AVQAテストセットと見えない聴覚シーンと疑問の両方においてLALM推論性能を改善した。
論文 参考訳(メタデータ) (2025-09-19T06:39:39Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - Bridging Ears and Eyes: Analyzing Audio and Visual Large Language Models to Humans in Visible Sound Recognition and Reducing Their Sensory Gap via Cross-Modal Distillation [13.137446396934102]
音声オブジェクトの認識において,人間に対する音声・視覚・視覚・視覚大言語モデル(LLM)の評価を行った。
Qwen2-Audio と Qwen2-VL の間には,人間の耳と眼の感覚の相違がみられる。
論文 参考訳(メタデータ) (2025-05-11T01:01:44Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language Models [27.430040932849018]
AVHBenchは、音声視覚モデルの知覚と理解能力を評価するために設計された最初の総合的なベンチマークである。
以上の結果から,既存のLLMはモダリティ間の相互相互作用による幻覚に苦慮していることが明らかとなった。
AVHBenchを用いた簡単なトレーニングは幻覚に対する聴覚的LLMの堅牢性を向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-23T23:36:06Z) - Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models [49.87432626548563]
本稿では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。
以上の結果から,LALMは音声コンテンツの理解において,特別な音声キャプションモデルに匹敵するものであることが明らかとなった。
差別的質問に対するLALMの性能を高めるために,迅速なエンジニアリングの可能性を探る。
論文 参考訳(メタデータ) (2024-06-12T16:51:54Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。