論文の概要: When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2510.00626v1
- Date: Wed, 01 Oct 2025 07:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.453869
- Title: When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models
- Title(参考訳): 沈黙が重要なとき--大規模音声言語モデルのテキスト推論における無関係音声の影響
- Authors: Chen-An Li, Tzu-Han Lin, Hung-yi Lee,
- Abstract要約: 非形式的音声でさえ精度を低下させ、予測ボラティリティを増大させる。
サイレンスはしばしば中立であると仮定されるが、出力を合成ノイズと同じくらい強く不安定にする。
この結果から, 相互干渉が重要な課題であることが明らかとなり, 効率的な核融合戦略の必要性が浮き彫りとなった。
- 参考スコア(独自算出の注目度): 48.94367629342966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large audio-language models (LALMs) unify speech and text processing, but their robustness in noisy real-world settings remains underexplored. We investigate how irrelevant audio, such as silence, synthetic noise, and environmental sounds, affects text reasoning tasks where audio is unnecessary. Across three text-based benchmarks, we find that even non-informative audio reduces accuracy and increases prediction volatility; the severity of interference scales with longer durations, higher amplitudes, and elevated decoding temperatures. Silence, often assumed neutral, destabilizes outputs as strongly as synthetic noise. While larger models show greater resilience, vulnerabilities persist across all evaluated systems. We further test mitigation strategies and find that prompting shows limited effectiveness, whereas self-consistency improves stability at the cost of increased computation. Our results reveal cross-modal interference as a key robustness challenge and highlight the need for efficient fusion strategies that preserve reasoning performance in the presence of irrelevant inputs.
- Abstract(参考訳): 大規模音声言語モデル(LALM)は音声とテキスト処理を統一するが、雑音の多い実世界の環境での頑健さはいまだに未調査である。
本研究では,無関係な音声(サイレント,合成雑音,環境音など)が,音声が不要なテキスト推論作業にどのように影響するかを検討する。
テキストベースの3つのベンチマークで、非形式的オーディオでさえ精度を低下させ、予測ボラティリティを増大させることが判明した。
サイレンスはしばしば中立であると仮定されるが、出力を合成ノイズと同じくらい強く不安定にする。
より大きなモデルではレジリエンスが向上する一方で、すべての評価システムに脆弱性が持続する。
我々はさらに緩和戦略を検証し、プロンプトが限られた有効性を示すのに対して、自己整合性は計算量の増加を犠牲にして安定性を向上することを示した。
本研究は, 相互干渉を重要なロバスト性課題として明らかにし, 無関係な入力の存在下での推論性能を維持する効率的な融合戦略の必要性を強調した。
関連論文リスト
- SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models [18.160420407067743]
MCR-BENCHは、LALMが一貫性のない音声テキストペアを提示する際にどのように情報を優先するかを評価するために設計された最初のベンチマークである。
モダリティ間に不整合が存在する場合、LALMはテキスト入力に対して有意なバイアスを示す。
この傾向は、オーディオ中心のタスクのパフォーマンスを著しく低下させ、現実世界のアプリケーションにとって重要な信頼性上の懸念を引き起こす。
論文 参考訳(メタデータ) (2025-08-21T09:58:24Z) - Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment through Latent Acoustic Pattern Triggers [40.4026420070893]
HIN(Hidden in the Noise)は、微妙でオーディオ特有の機能を活用するために設計された、新しいバックドアアタックフレームワークである。
HINは、時間的ダイナミクスの変更やスペクトル調整されたノイズの戦略的注入など、生のオーディオ波形に音響的修正を適用している。
音声機能に基づくトリガに対するALLMロバスト性を評価するため、AudioSafeベンチマークを開発し、9つの異なるリスクタイプを評価する。
論文 参考訳(メタデータ) (2025-08-04T08:15:16Z) - Autoregressive Speech Enhancement via Acoustic Tokens [12.77742493025067]
音声強調のための音響トークンの性能について検討し,新しいトランスデューサに基づく自己回帰アーキテクチャを提案する。
VoiceBankとLibri1データセットの実験では、話者識別の保存の観点から、音響トークンがセマンティックトークンより優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-17T06:32:22Z) - Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。
本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:35:41Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS [43.84833978193758]
ゼロショット音声合成システム(TTS)は、任意の話者の声を短い音声プロンプトから合成することができる。
生成した音声の品質は、音声プロンプトがノイズを含むと著しく劣化する。
本稿では,ノイズの多い音声プロンプトから発生する音声の質を高めるための様々な手法について検討する。
論文 参考訳(メタデータ) (2024-06-09T08:51:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。