論文の概要: SonicBench: Dissecting the Physical Perception Bottleneck in Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2601.11039v1
- Date: Fri, 16 Jan 2026 07:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.387302
- Title: SonicBench: Dissecting the Physical Perception Bottleneck in Large Audio Language Models
- Title(参考訳): SonicBench: 大規模オーディオモデルにおける物理的な知覚ボツネックの分離
- Authors: Yirong Sun, Yanjun Chen, Xin Qiu, Gang Zhang, Hongyu Chen, Daokuan Wu, Chengming Li, Min Yang, Dawei Zhu, Wei Zhang, Xiaoyu Shen,
- Abstract要約: 大規模音声言語モデル (LALM) は意味的・パラ言語的タスクに優れるが、音声の基本的物理的特性を知覚する能力は未解明のままである。
SonicBenchは5次元にまたがって12コアの物理的特性を体系的に評価する心理物理学的なベンチマークである。
LALMにおける基礎的聴覚理解の欠如について検討した。
- 参考スコア(独自算出の注目度): 30.62556746827114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio Language Models (LALMs) excel at semantic and paralinguistic tasks, yet their ability to perceive the fundamental physical attributes of audio such as pitch, loudness, and spatial location remains under-explored. To bridge this gap, we introduce SonicBench, a psychophysically grounded benchmark that systematically evaluates 12 core physical attributes across five perceptual dimensions. Unlike previous datasets, SonicBench uses a controllable generation toolbox to construct stimuli for two complementary paradigms: recognition (absolute judgment) and comparison (relative judgment). This design allows us to probe not only sensory precision but also relational reasoning capabilities, a domain where humans typically exhibit greater proficiency. Our evaluation reveals a substantial deficiency in LALMs' foundational auditory understanding; most models perform near random guessing and, contrary to human patterns, fail to show the expected advantage on comparison tasks. Furthermore, explicit reasoning yields minimal gains. However, our linear probing analysis demonstrates crucially that frozen audio encoders do successfully capture these physical cues (accuracy at least 60%), suggesting that the primary bottleneck lies in the alignment and decoding stages, where models fail to leverage the sensory signals they have already captured.
- Abstract(参考訳): 大規模音声言語モデル (LALM) は意味論的・パラ言語的タスクに優れるが、音高、声高、空間的位置といった音の基本的物理的特性を知覚する能力は未解明のままである。
このギャップを埋めるために,5つの知覚次元にまたがる12コア物理特性を体系的に評価する心理物理学的なベンチマークであるSonicBenchを紹介した。
従来のデータセットとは異なり、SonicBenchは制御可能な生成ツールボックスを使用して、認識(絶対的判断)と比較(相対的判断)の2つの相補的パラダイムの刺激を構築する。
この設計により、感覚の精度だけでなく、人間の方が高い習熟度を示す領域である関係推論能力も探索できる。
評価の結果,LALMの基本的聴覚理解の欠如が明らかとなった。ほとんどのモデルでは,ほぼランダムな推測を行い,人間のパターンとは対照的に,比較作業において期待される優位性を示すことができない。
さらに、明示的な推論は最小利得をもたらす。
しかしながら、線形探索解析により、凍結したオーディオエンコーダがこれらの物理的手がかり(少なくとも60%の精度)を捉えることに成功し、主要なボトルネックはアライメントと復号段階にあることを示唆している。
関連論文リスト
- PhyAVBench: A Challenging Audio Physics-Sensitivity Benchmark for Physically Grounded Text-to-Audio-Video Generation [63.3417467957431]
テキスト・ツー・オーディオ・ビデオ(T2AV)生成は、現実的なオーディオ・ビジュアルコンテンツを要求する幅広いアプリケーションを支える。
我々は,既存のT2AVモデルの音波物理接地能力を評価するために設計された,難易度の高い音波物理感度ベンチマークであるPhyAVBenchを紹介する。
主に音声とビデオの同期に焦点を当てた以前のベンチマークとは異なり、PhyAVBenchは、音生成の基礎となる物理的メカニズムに対するモデルの理解を明確に評価している。
論文 参考訳(メタデータ) (2025-12-30T05:22:31Z) - Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model [0.27528170226206433]
本稿では,脳力学の抽象表現を学習するための自己教師型フレームワークであるBrain-Semantoksを紹介する。
そのアーキテクチャは、2つの中核的なイノベーションの上に構築されている。これは、雑音の多い地域信号を機能的ネットワークを表す堅牢なトークンに集約するセマンティックトークンライザである。
線形プローブのみを用いても,学習した表現は様々な下流タスクにおいて高い性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-12-12T14:11:20Z) - Spatial Blind Spot: Auditory Motion Perception Deficits in Audio LLMs [39.209987830131816]
LALM(Large Audio-Language Models)は近年,音声認識,音声キャプション,聴覚質問応答において顕著な進歩を見せている。
しかし、これらのモデルが力学、特に音源の動きを知覚できるかどうかは不明だ。
AMPBenchは聴覚動作の理解を評価するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-11-17T11:45:41Z) - STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence [81.94084852268468]
時間と3次元空間における音波力学の推論として定義される音声4次元インテリジェンスを形式化する。
STAR-Benchは、基礎的な音響知覚設定とホロスティックな時空間推論設定を組み合わせる。
データキュレーションパイプラインは、高品質なサンプルを保証するために2つの方法を使用します。
論文 参考訳(メタデータ) (2025-10-28T17:50:34Z) - SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams [57.84331423686738]
ほとんどのロボットの把握システムは、センサーデータを明示的な3Dポイントの雲に変換することに依存しており、これは生物学的知性には見つからない計算ステップである。
生体振動子経路を模倣するフレームワークであるSpikeGraspを導入し、立体スパイクカメラから生の非同期イベントを処理する。
我々のモデルは、これらのステレオスパイクストリームを融合させ、高レベルの視覚処理に類似した繰り返しスパイクニューラルネットワークを使用して、点雲を再構築することなく、把握仮説を反復的に洗練する。
論文 参考訳(メタデータ) (2025-10-12T13:36:40Z) - Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文 参考訳(メタデータ) (2025-08-28T15:43:15Z) - Pitch Imperfect: Detecting Audio Deepfakes Through Acoustic Prosodic Analysis [6.858439600092057]
音声のディープフェイクを検出するための基礎的な手段として,韻律(Prosody)や高レベルの言語的特徴を探求する。
我々は6つの古典的韻律的特徴に基づく検出器を開発し、我々のモデルが他のベースラインモデルと同様に機能することを実証する。
モデル決定に最も影響を与える韻律的特徴を説明することができることを示す。
論文 参考訳(メタデータ) (2025-02-20T16:52:55Z) - BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。