論文の概要: WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations
- arxiv url: http://arxiv.org/abs/2508.20976v1
- Date: Thu, 28 Aug 2025 16:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.512265
- Title: WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations
- Title(参考訳): WoW-Bench:海洋哺乳動物ボカライゼーションによるオーディオ言語モデルにおける微粒音響知覚の評価
- Authors: Jaeyeon Kim, Heeseung Yun, Sang Hoon Woo, Chao-Han Huck Yang, Gunhee Kim,
- Abstract要約: 海洋哺乳動物の発声を用いた低レベルの聴覚知覚と認知を評価するために,WoW-Benchベンチマーク(World-of-Whale benchmark)を導入した。
WoW-Benchは、新しい音を分類するための知覚ベンチマークと、ブルームの分類学にインスパイアされた認知ベンチマークで構成され、音の出来事を記憶、理解、応用、分析する能力を評価する。
最先端のLALMを用いた実験は、人間のレベルよりもはるかに低い性能を示し、LALMのより強力な聴覚的接地の必要性を示している。
- 参考スコア(独自算出の注目度): 67.6147632074449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large audio language models (LALMs) extend language understanding into the auditory domain, yet their ability to perform low-level listening, such as pitch and duration detection, remains underexplored. However, low-level listening is critical for real-world, out-of-distribution tasks where models must reason about unfamiliar sounds based on fine-grained acoustic cues. To address this gap, we introduce the World-of-Whale benchmark (WoW-Bench) to evaluate low-level auditory perception and cognition using marine mammal vocalizations. WoW-bench is composed of a Perception benchmark for categorizing novel sounds and a Cognition benchmark, inspired by Bloom's taxonomy, to assess the abilities to remember, understand, apply, and analyze sound events. For the Cognition benchmark, we additionally introduce distractor questions to evaluate whether models are truly solving problems through listening rather than relying on other heuristics. Experiments with state-of-the-art LALMs show performance far below human levels, indicating a need for stronger auditory grounding in LALMs.
- Abstract(参考訳): 大規模音声言語モデル(LALM)は、言語理解を聴覚領域に拡張するが、ピッチや持続時間検出などの低レベルリスニングを行う能力はいまだ未定である。
しかし、低レベルリスニングは、モデルが精細な音響的手がかりに基づいて不慣れな音を推論しなければならない実世界の非分配タスクにとって重要である。
このギャップに対処するために、海洋哺乳動物の発声を用いた低レベルの聴覚知覚と認知を評価するためのWorld-of-Whaleベンチマーク(WoW-Bench)を導入する。
WoW-benchは、新しい音を分類するための知覚ベンチマークと、ブルームの分類学にインスパイアされた認知ベンチマークで構成され、音の出来事を記憶、理解、応用、分析する能力を評価する。
さらに、Cognitionベンチマークでは、他のヒューリスティックに頼らず、リスニングによってモデルが真に問題を解決しているかどうかを評価するために、不注意な質問も導入する。
最先端のLALMを用いた実験は、人間のレベルよりもはるかに低い性能を示し、LALMのより強力な聴覚的接地の必要性を示している。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。