論文の概要: When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2508.15407v1
- Date: Thu, 21 Aug 2025 09:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.270368
- Title: When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models
- Title(参考訳): 音声とテキストの相違:大規模オーディオ言語モデルにおけるテキストバイアスの発見
- Authors: Cheng Wang, Gelei Deng, Xianglin Yang, Han Qiu, Tianwei Zhang,
- Abstract要約: MCR-BENCHは、LALMが一貫性のない音声テキストペアを提示する際にどのように情報を優先するかを評価するために設計された最初のベンチマークである。
モダリティ間に不整合が存在する場合、LALMはテキスト入力に対して有意なバイアスを示す。
この傾向は、オーディオ中心のタスクのパフォーマンスを著しく低下させ、現実世界のアプリケーションにとって重要な信頼性上の懸念を引き起こす。
- 参考スコア(独自算出の注目度): 18.160420407067743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio-Language Models (LALMs) are enhanced with audio perception capabilities, enabling them to effectively process and understand multimodal inputs that combine audio and text. However, their performance in handling conflicting information between audio and text modalities remains largely unexamined. This paper introduces MCR-BENCH, the first comprehensive benchmark specifically designed to evaluate how LALMs prioritize information when presented with inconsistent audio-text pairs. Through extensive evaluation across diverse audio understanding tasks, we reveal a concerning phenomenon: when inconsistencies exist between modalities, LALMs display a significant bias toward textual input, frequently disregarding audio evidence. This tendency leads to substantial performance degradation in audio-centric tasks and raises important reliability concerns for real-world applications. We further investigate the influencing factors of text bias, and explore mitigation strategies through supervised finetuning, and analyze model confidence patterns that reveal persistent overconfidence even with contradictory inputs. These findings underscore the need for improved modality balance during training and more sophisticated fusion mechanisms to enhance the robustness when handling conflicting multi-modal inputs. The project is available at https://github.com/WangCheng0116/MCR-BENCH.
- Abstract(参考訳): LALM(Large Audio-Language Models)は、音声知覚機能によって拡張され、音声とテキストを組み合わせたマルチモーダル入力を効果的に処理し、理解することができる。
しかし、音声とテキストのモダリティの相反する情報を扱う際のパフォーマンスは、いまだに未検討である。
本稿では,MCR-BENCHについて紹介する。MCR-BENCHは,LALMが一貫性のない音声テキストペアを提示する際の情報優先性を評価するために設計された,最初の総合的なベンチマークである。
様々な音声理解タスクに対する広範囲な評価を通じて,モーダル間に不整合が存在する場合,LALMはテキスト入力に対する顕著なバイアスを示し,しばしば音声証拠を無視している。
この傾向は、オーディオ中心のタスクのパフォーマンスを著しく低下させ、現実世界のアプリケーションにとって重要な信頼性上の懸念を引き起こす。
さらに、テキストバイアスの影響要因について検討し、教師付き微調整による緩和戦略を探求し、矛盾した入力であっても永続的な過信を示すモデル信頼パターンを解析する。
これらの知見は、マルチモーダル入力の相反する処理におけるロバスト性を高めるために、トレーニング中のモダリティバランスの改善と、より洗練された融合機構の必要性を浮き彫りにした。
このプロジェクトはhttps://github.com/WangCheng0116/MCR-BENCHで入手できる。
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent Alignment [26.399212357764576]
音声-視覚的手がかりに基づく聴覚オブジェクトの正確な位置決めは、音声-視覚的セグメンテーションの中核的な目的である。
本稿では,AMAモジュールとUEモジュールの2つの主要コンポーネントを持つ新しいフレームワークを提案する。
AMAは、複数のグループ内で音声と視覚の相互作用を実行し、オーディオキューに対する応答性に基づいて、グループ機能をコンパクトな表現に集約する。
UEは空間情報と時間情報を統合し、音状態の頻繁な変化に起因する高不確かさ領域を識別する。
論文 参考訳(メタデータ) (2025-03-17T05:48:22Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。