論文の概要: All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation
- arxiv url: http://arxiv.org/abs/2604.24401v1
- Date: Mon, 27 Apr 2026 12:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.999386
- Title: All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation
- Title(参考訳): Glittersはオーディオではない: テキストの優先順位とオーディオの信頼性を再考する
- Authors: Leonardo Haw-Yang Foo, Chih-Kai Yang, Chen-An Li, Ke-Han Lu, Hung-yi Lee,
- Abstract要約: 大規模オーディオ言語モデルは、音声と音声のベンチマークで一貫したパフォーマンス向上を示すが、高いスコアは真の聴覚知覚を反映していないかもしれない。
本稿では,テキストと一般知識のみから応答可能性を測定するテキスト先行法と,音響信号への実際の依存度を評価するオーディオ依存法という,2つの軸を用いた診断フレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.45465533352999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Audio-Language Models show consistent performance gains across speech and audio benchmarks, yet high scores may not reflect true auditory perception. If a model can answer questions without processing the acoustic signal, the benchmark fails as a measure of auditory understanding. We present a diagnostic framework using two axes: text prior, which measures answerability from text and general knowledge alone, and audio reliance, which assesses actual dependency on the acoustic signal. Evaluating eight LALMs across three benchmarks, we find that models retain 60-72% of their full audio scores even without any audio input. Moreover, among items that require audio, only 3.0-4.2% need the complete audio clip; the majority can be resolved using localized fragments. These findings challenge the assumption that benchmark performance equals robust audio understanding, and we conclude with practical guidelines for improving evaluation reliability and benchmark design.
- Abstract(参考訳): 大規模オーディオ言語モデルは、音声と音声のベンチマークで一貫したパフォーマンス向上を示すが、高いスコアは真の聴覚知覚を反映していないかもしれない。
モデルが音響信号を処理せずに質問に答えることができれば、そのベンチマークは聴覚的理解の尺度として失敗する。
本稿では,テキストと一般知識のみから応答可能性を測定するテキスト先行法と,音響信号への実際の依存度を評価するオーディオ依存法という,2つの軸を用いた診断フレームワークを提案する。
3つのベンチマークで8つのLALMを評価すると、オーディオ入力なしでも、完全なオーディオスコアの60~72%をモデルが保持していることが分かる。
さらに、オーディオを必要とする項目のうち、完全なオーディオクリップは3.0-4.2%しか必要としない。
これらの結果は、ベンチマーク性能が堅牢な音声理解に等しいという仮定に挑戦し、評価信頼性とベンチマーク設計を改善するための実践的ガイドラインを結論付けている。
関連論文リスト
- How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation [97.0235251827591]
大規模言語モデル (LLM) は,Large Audio Language Models (LALM) の知識バックボーンとして広く利用されている。
テキストのみの事前学習によって符号化される聴覚知識の量と、それが下流のパフォーマンスに与える影響について検討する。
その結果,家族間で聴覚知識が大きく異なり,テキストのみの結果が音響性能と強く相関していることが判明した。
論文 参考訳(メタデータ) (2026-03-19T17:50:07Z) - SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases [27.340743922132067]
SCENEBenchは、背景音の理解、雑音の局所化、言語間音声の理解、発声者認識という4つの現実世界のカテゴリーにまたがる音声理解の幅広い形態をターゲットにしている。
このベンチマークスイートの目的は、発言される単語だけでなく、その発言の仕方や音声の非音声成分を評価することである。
我々は5つの最先端のLALMを評価し、重要なギャップを見出す: タスクによってパフォーマンスが異なり、いくつかのタスクはランダムな確率以下で実行され、他のタスクは高い精度を達成する。
論文 参考訳(メタデータ) (2026-03-10T16:15:12Z) - SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation [52.468945848774844]
本稿では,人間の介入なしに音声の分離を評価できる自動システムの必要性に対処する。
提案した評価指標であるSAM Audio Judge (SAJ) は, マルチモーダルな細粒度参照自由度尺度である。
SAJは3つのオーディオドメイン(音声、音楽、一般的な音声イベント)と3つのインプット(テキスト、視覚、スパン)をサポートし、4つの異なる評価次元をカバーする。
論文 参考訳(メタデータ) (2026-01-27T15:29:02Z) - UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models [36.71750531005594]
UltraEval-Audioは、オーディオ基礎モデルの統一評価フレームワークである。
10の言語と14のコアタスクカテゴリをサポートし、24の主流モデルと36の信頼できるベンチマークをシームレスに統合する。
オーディオコーデックに新しい包括的評価手法を採用し、3つの重要な領域で性能を評価する。
論文 参考訳(メタデータ) (2026-01-04T04:54:12Z) - AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。
8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。
評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
論文 参考訳(メタデータ) (2024-06-23T05:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。