Fugu-MT 論文翻訳(概要): DEAF: A Benchmark for Diagnostic Evaluation of Acoustic Faithfulness in Audio Language Models

論文の概要: DEAF: A Benchmark for Diagnostic Evaluation of Acoustic Faithfulness in Audio Language Models

arxiv url: http://arxiv.org/abs/2603.18048v1
Date: Tue, 17 Mar 2026 15:52:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:05.72415
Title: DEAF: A Benchmark for Diagnostic Evaluation of Acoustic Faithfulness in Audio Language Models
Title（参考訳）: DEAF: 音声モデルの音響的忠実度評価のためのベンチマーク
Authors: Jiaqi Xiong, Yunjia Qi, Qi Cao, Yu Zheng, Weisheng Xu, Ziteng Wang, Ruofan Liao, Yutong Zhang, Sichen Liu,
Abstract要約: 最近の音声マルチモーダル大言語モデル(Audio MLLMs)は,音声ベンチマークで顕著な性能を示した。これらのモデルが真に音響信号を処理するのか、それともテキストベースの意味推論に依存しているのかは定かではない。 3次元にまたがる2700以上の衝突刺激のベンチマークであるDEAFを紹介する。
参考スコア（独自算出の注目度）: 15.637236155997
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent Audio Multimodal Large Language Models (Audio MLLMs) demonstrate impressive performance on speech benchmarks, yet it remains unclear whether these models genuinely process acoustic signals or rely on text-based semantic inference. To systematically study this question, we introduce DEAF (Diagnostic Evaluation of Acoustic Faithfulness), a benchmark of over 2,700 conflict stimuli spanning three acoustic dimensions: emotional prosody, background sounds, and speaker identity. Then, we design a controlled multi-level evaluation framework that progressively increases textual influence, ranging from semantic conflicts in the content to misleading prompts and their combination, allowing us to disentangle content-driven bias from prompt-induced sycophancy. We further introduce diagnostic metrics to quantify model reliance on textual cues over acoustic signals. Our evaluation of seven Audio MLLMs reveals a consistent pattern of text dominance: models are sensitive to acoustic variations, yet predictions are predominantly driven by textual inputs, revealing a gap between high performance on standard speech benchmarks and genuine acoustic understanding.
Abstract（参考訳）: 近年の音声マルチモーダル大言語モデル (Audio MLLMs) は, 音声ベンチマークにおいて顕著な性能を示したが, これらのモデルが真に音響信号を処理するのか, テキストベースセマンティック推論に依存しているのかは定かではない。この問題を体系的に研究するために,情緒的韻律,背景音,話者識別の3次元にまたがる2700以上の対立刺激のベンチマークであるDEAF(Diagnostic Evaluation of Acoustic Faithfulness)を導入する。そして、コンテンツ中の意味的対立から誤解を招くプロンプトとそれらの組み合わせまで、テキストの影響を徐々に増大させる制御された多段階評価フレームワークを設計し、コンテンツ駆動バイアスをプロンプトによって引き起こされる薬効から遠ざけるようにする。さらに,音響信号に対するテキストキューによるモデル依存度を定量化するための診断指標も導入する。モデルは音響的変動に敏感であるが、予測は主にテキスト入力によって駆動され、標準音声ベンチマークにおけるハイパフォーマンスと真の音響理解とのギャップが明らかになる。

関連論文リスト

Evaluating Semantic Fragility in Text-to-Audio Generation Systems Under Controlled Prompt Perturbations [2.2870073664564115]
小さな言語的変化は、生成された音声にかなりの変化をもたらし、実用的な使用における信頼性への懸念を引き起こす可能性がある。制御された即時摂動下でのテキスト・音声システムの意味的不安定性を評価する。
論文参考訳（メタデータ） (2026-03-14T08:12:40Z)
Investigation for Relative Voice Impression Estimation [16.024524623990484]
本研究では,相対音声印象推定(RIE)について検討する。 RIEは、同一話者から2つの発話の知覚的差異を予測するためのフレームワークである。音声の感情認識によく用いられる古典的音響特徴,自己教師型音声表現,マルチモーダル大言語モデル,の3つの手法を比較した。
論文参考訳（メタデータ） (2026-02-15T14:54:52Z)
SpeakerSleuth: Evaluating Large Audio-Language Models as Judges for Multi-turn Speaker Consistency [12.420484491347073]
LALMがマルチターン対話における話者の一貫性を確実に判断できるかどうかを評価するベンチマークである SpeakerSleuth を提案する。合成音声と実音声を対象とする4つの多種多様なデータセットを対象とした1,818の人間検証評価インスタンスを構築した。モデルは音響的不整合を確実に検出するのに苦労している。
論文参考訳（メタデータ） (2026-01-07T15:45:41Z)
AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。 AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文参考訳（メタデータ） (2025-08-29T07:40:39Z)
SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。 11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文参考訳（メタデータ） (2025-08-04T03:28:04Z)
AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文参考訳（メタデータ） (2025-07-17T00:39:18Z)
Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文参考訳（メタデータ） (2024-10-23T06:35:41Z)
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (2024-02-12T15:41:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。