論文の概要: Spatial Blind Spot: Auditory Motion Perception Deficits in Audio LLMs
- arxiv url: http://arxiv.org/abs/2511.13273v1
- Date: Mon, 17 Nov 2025 11:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.18848
- Title: Spatial Blind Spot: Auditory Motion Perception Deficits in Audio LLMs
- Title(参考訳): 空間ブラインドスポット:LLMにおける聴覚運動知覚障害
- Authors: Zhe Sun, Yujun Cai, Jiayu Yao, Yiwei Wang,
- Abstract要約: LALM(Large Audio-Language Models)は近年,音声認識,音声キャプション,聴覚質問応答において顕著な進歩を見せている。
しかし、これらのモデルが力学、特に音源の動きを知覚できるかどうかは不明だ。
AMPBenchは聴覚動作の理解を評価するために設計された最初のベンチマークである。
- 参考スコア(独自算出の注目度): 39.209987830131816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio-Language Models (LALMs) have recently shown impressive progress in speech recognition, audio captioning, and auditory question answering. Yet, whether these models can perceive spatial dynamics, particularly the motion of sound sources, remains unclear. In this work, we uncover a systematic motion perception deficit in current ALLMs. To investigate this issue, we introduce AMPBench, the first benchmark explicitly designed to evaluate auditory motion understanding. AMPBench introduces a controlled question-answering benchmark designed to evaluate whether Audio-Language Models (LALMs) can infer the direction and trajectory of moving sound sources from binaural audio. Comprehensive quantitative and qualitative analyses reveal that current models struggle to reliably recognize motion cues or distinguish directional patterns. The average accuracy remains below 50%, underscoring a fundamental limitation in auditory spatial reasoning. Our study highlights a fundamental gap between human and model auditory spatial reasoning, providing both a diagnostic tool and new insight for enhancing spatial cognition in future Audio-Language Models.
- Abstract(参考訳): LALM(Large Audio-Language Models)は近年,音声認識,音声キャプション,聴覚質問応答において顕著な進歩を見せている。
しかし、これらのモデルが空間力学、特に音源の動きを知覚できるかどうかは不明である。
本研究では,現在のALLMにおける系統的な運動知覚障害を明らかにする。
そこで本研究では,聴覚動作の理解度を評価するために設計された最初のベンチマークであるAMPBenchを紹介する。
AMPBenchは、オーディオ言語モデル(LALM)がバイノーラルオーディオから移動音源の方向と軌道を推測できるかどうかを評価するために、制御された質問応答ベンチマークを導入する。
総合的な定量的、質的な分析により、現在のモデルは動きの手がかりを確実に認識したり、方向のパターンを区別するのに苦労していることが明らかになった。
平均精度は50%以下であり、聴覚空間的推論の基本的な限界を暗示している。
本研究は,人間の聴覚的空間推論とモデル的空間推論の基本的なギャップを浮き彫りにして,将来の音声言語モデルにおける空間認知の促進のための診断ツールと新たな洞察を提供するものである。
関連論文リスト
- WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations [67.6147632074449]
海洋哺乳動物の発声を用いた低レベルの聴覚知覚と認知を評価するために,WoW-Benchベンチマーク(World-of-Whale benchmark)を導入した。
WoW-Benchは、新しい音を分類するための知覚ベンチマークと、ブルームの分類学にインスパイアされた認知ベンチマークで構成され、音の出来事を記憶、理解、応用、分析する能力を評価する。
最先端のLALMを用いた実験は、人間のレベルよりもはるかに低い性能を示し、LALMのより強力な聴覚的接地の必要性を示している。
論文 参考訳(メタデータ) (2025-08-28T16:29:46Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。