論文の概要: When Audio-LLMs Don't Listen: A Cross-Linguistic Study of Modality Arbitration
- arxiv url: http://arxiv.org/abs/2602.11488v1
- Date: Thu, 12 Feb 2026 02:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.601882
- Title: When Audio-LLMs Don't Listen: A Cross-Linguistic Study of Modality Arbitration
- Title(参考訳): 音声-LLMが聴こえないとき: モーダリティの調停に関する言語横断的研究
- Authors: Jayadev Billa,
- Abstract要約: 音声とテキストが衝突する場合、音声対応言語モデルは2つのテキストソース間の調停の10倍の頻度でテキストに従う。
応答前に書き起こしを強制すると、テキストの優位性(19%から33%)が増加し、アクセシビリティを向上させることなく、音声の利点を犠牲にする。
最先端の4つのオーディオ-LLMと8言語にわたる実験は、言語間およびクロスモデルの変化と一貫した傾向を示している。
- 参考スコア(独自算出の注目度): 1.5567685129899713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When audio and text conflict, speech-enabled language models follow the text 10 times more often than when arbitrating between two text sources, even when explicitly instructed to trust the audio. Using ALME, a benchmark of 57,602 controlled audio-text conflict stimuli across 8 languages, we find that Gemini 2.0 Flash exhibits 16.6\% text dominance under audio-text conflict versus 1.6\% under text-text conflict with identical reliability cues. This gap is not explained by audio quality: audio-only accuracy (97.2\%) exceeds cascade accuracy (93.9\%), indicating audio embeddings preserve more information than text transcripts. We propose that text dominance reflects an asymmetry not in information content but in arbitration accessibility: how easily the model can reason over competing representations. This framework explains otherwise puzzling findings. Forcing transcription before answering increases text dominance (19\% to 33\%), sacrificing audio's information advantage without improving accessibility. Framing text as ``deliberately corrupted'' reduces text dominance by 80\%. A fine-tuning ablation provides interventional evidence: training only the audio projection layer increases text dominance (+26.5\%), while LoRA on the language model halves it ($-$23.9\%), localizing text dominance to the LLM's reasoning rather than the audio encoder. Experiments across four state-of-the-art audio-LLMs and 8 languages show consistent trends with substantial cross-linguistic and cross-model variation, establishing modality arbitration as a distinct reliability dimension not captured by standard speech benchmarks.
- Abstract(参考訳): 音声とテキストが衝突する場合、音声対応言語モデルは、2つのテキストソース間の調停時に10倍の頻度でテキストに従う。
8言語にわたる57,602の音声テキストコンフリクトのベンチマークであるALMEを用いて、Gemini 2.0 Flashは、音声テキストコンフリクトにおいて16.6\%、テキストテキストコンフリクトにおいて1.6\%の優位性を示す。
音声のみの精度 (97.2\%) はカスケードの精度 (93.9\%) を超え、音声埋め込みがテキストの書き起こしよりも多くの情報を保存することを示す。
テキスト優位性は、情報内容ではなく、調停アクセシビリティーにおいて非対称性を反映する。
このフレームワークは、さもなくば謎の発見を説明します。
応答前に書き起こしを強制すると、テキストの優位性(19\%から33\%)が増加し、アクセシビリティを向上することなく、音声の情報優位性を犠牲にする。
テキストを ``deliberately corrupted'' で割ると、テキストの優位性が 80 % 減少する。
オーディオプロジェクション層のみのトレーニングではテキスト優位性(+26.5\%)が増加し、言語モデル上のLoRAでは、オーディオエンコーダよりもLLMの推論にテキスト優位性をローカライズしている。
4つの最先端のオーディオ-LLMと8言語にわたる実験は、言語間およびモデル間の大きな変動と一貫した傾向を示し、標準音声ベンチマークでは捉えられない独立した信頼性次元としてモダリティ調停を確立する。
関連論文リスト
- Speak, Edit, Repeat: High-Fidelity Voice Editing and Zero-Shot TTS with Cross-Attentive Mamba [5.055749974859193]
MAVEは、テキスト条件付き音声編集と高忠実な音声合成のための新しい自動回帰アーキテクチャである。
MAVEは、音声編集における最先端のパフォーマンスと、ゼロショットTSにおける非常に競合的な結果を達成する。
MAVEは、RealEditデータベースからの発話を推測する際に、VoiceCraftよりも6倍少ないメモリを必要とする。
論文 参考訳(メタデータ) (2025-10-06T12:11:31Z) - When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models [18.160420407067743]
MCR-BENCHは、LALMが一貫性のない音声テキストペアを提示する際にどのように情報を優先するかを評価するために設計された最初のベンチマークである。
モダリティ間に不整合が存在する場合、LALMはテキスト入力に対して有意なバイアスを示す。
この傾向は、オーディオ中心のタスクのパフォーマンスを著しく低下させ、現実世界のアプリケーションにとって重要な信頼性上の懸念を引き起こす。
論文 参考訳(メタデータ) (2025-08-21T09:58:24Z) - Text Injection for Neural Contextual Biasing [57.589903308622745]
本研究では文脈テキストインジェクション(CTI)を提案する。
1000億のテキストを持つCTIは、強い神経バイアスモデルから43.3%の相対的なWER削減を達成することができる。
論文 参考訳(メタデータ) (2024-06-05T04:20:17Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - Enhance audio generation controllability through representation
similarity regularization [23.320569279485472]
本稿では,モデル学習における音声表現とテキスト表現のアライメントを強調することによって,音声生成の制御を強化する革新的なアプローチを提案する。
提案手法は、音声と音楽の両方の客観的な指標の改善と、音声生成における人間の知覚の向上につながる。
論文 参考訳(メタデータ) (2023-09-15T21:32:20Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Connecting the Dots between Audio and Text without Parallel Data through
Visual Knowledge Transfer [40.85506152074302]
VIP-ANTは、並列オーディオテキストデータを使用することなくtextbfAudio-textbfTextアライメントを誘導する。
本研究は,音声テキストデータの並列化をほとんど行わずに,音声テキスト接続を学習するための新たな道を開くものである。
論文 参考訳(メタデータ) (2021-12-16T16:22:10Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。