論文の概要: Do Models Hear Like Us? Probing the Representational Alignment of Audio LLMs and Naturalistic EEG
- arxiv url: http://arxiv.org/abs/2601.16540v1
- Date: Fri, 23 Jan 2026 08:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.603891
- Title: Do Models Hear Like Us? Probing the Representational Alignment of Audio LLMs and Naturalistic EEG
- Title(参考訳): 音声LLMの表現的アライメントと自然主義脳波
- Authors: Haoyun Yang, Xin Xiao, Jiang Zhong, Yu Tian, Dong Xiaohua, Yu Mao, Hao Wu, Kaiwen Wei,
- Abstract要約: 本研究では,12個のオープンソースオーディオLLMと2つのデータセットにわたる脳波信号の階層的表現アライメントについて検討した。
分析の結果,(1)モデルランキングが異なる類似度指標で大きく異なるランク関係の分割,(2)深度依存のアライメントピークと,250~500msの時間窓内RSAの顕著増加を特徴とする時間的アライメントパターンをN400ニューラルダイナミクスと一致させ,(3)提案したTNC基準を用いて,ネガティブな評価能力を見出した。
- 参考スコア(独自算出の注目度): 21.253523606290685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio Large Language Models (Audio LLMs) have demonstrated strong capabilities in integrating speech perception with language understanding. However, whether their internal representations align with human neural dynamics during naturalistic listening remains largely unexplored. In this work, we systematically examine layer-wise representational alignment between 12 open-source Audio LLMs and Electroencephalogram (EEG) signals across 2 datasets. Specifically, we employ 8 similarity metrics, such as Spearman-based Representational Similarity Analysis (RSA), to characterize within-sentence representational geometry. Our analysis reveals 3 key findings: (1) we observe a rank-dependence split, in which model rankings vary substantially across different similarity metrics; (2) we identify spatio-temporal alignment patterns characterized by depth-dependent alignment peaks and a pronounced increase in RSA within the 250-500 ms time window, consistent with N400-related neural dynamics; (3) we find an affective dissociation whereby negative prosody, identified using a proposed Tri-modal Neighborhood Consistency (TNC) criterion, reduces geometric similarity while enhancing covariance-based dependence. These findings provide new neurobiological insights into the representational mechanisms of Audio LLMs.
- Abstract(参考訳): 音声大言語モデル (Audio LLMs) は、音声認識と言語理解を統合する強力な能力を示している。
しかしながら、その内部表現が自然主義的聴取中に人間の神経力学と一致しているかは、まだ明らかにされていない。
本研究では,12個のオープンソースAudio LLMと2つのデータセットにわたる脳波信号(EEG)の階層的表現アライメントを系統的に検討する。
具体的には,spearman-based Representational similarity Analysis (RSA) などの8つの類似度指標を用いて,文内表現幾何学の特徴付けを行う。
分析の結果,(1)モデルランキングが異なる類似度指標で大きく異なるランク依存性分割,(2)深度依存性アライメントピークが特徴とする時空間アライメントパターンの同定,および,250-500msの時間ウィンドウ内でのRSAの顕著な増加,(3)N400関連ニューラルダイナミクスとの整合性,(3)提案したTri-modal Neborhood Consistency(TNC)基準を用いて,負の韻律が同定された感情的解離,の3つが明らかになった。
これらの知見は、オーディオLLMの表現機構に関する新しい神経生物学的知見を提供する。
関連論文リスト
- STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence [81.94084852268468]
時間と3次元空間における音波力学の推論として定義される音声4次元インテリジェンスを形式化する。
STAR-Benchは、基礎的な音響知覚設定とホロスティックな時空間推論設定を組み合わせる。
データキュレーションパイプラインは、高品質なサンプルを保証するために2つの方法を使用します。
論文 参考訳(メタデータ) (2025-10-28T17:50:34Z) - WaveMind: Towards a Conversational EEG Foundation Model Aligned to Textual and Visual Modalities [55.00677513249723]
脳波信号は認知過程と固有の神経状態の両方を同時に符号化する。
我々は、EEG信号とその対応するモダリティを統一意味空間にマッピングし、一般化された解釈を実現する。
結果として得られたモデルは、柔軟でオープンな会話をサポートしながら、堅牢な分類精度を示す。
論文 参考訳(メタデータ) (2025-09-26T06:21:51Z) - Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - A Joint Spectro-Temporal Relational Thinking Based Acoustic Modeling Framework [10.354955365036181]
リレーショナル思考は人間の音声理解において重要な役割を担っているが、人工音声認識システムではまだ活用されていない。
本稿では,スペクトル時間的関係思考に基づく音響モデリングフレームワークを提案する。
このフレームワーク上に構築されたモデルは、TIMITデータセットよりも7.82%の音素認識タスクを改善した最先端システムを上回っている。
論文 参考訳(メタデータ) (2024-09-17T05:45:33Z) - Analysis of Argument Structure Constructions in a Deep Recurrent Language Model [0.0]
本稿では,再帰型ニューラルネットワークモデルにおけるArgument Structure Constructions(ASC)の表現と処理について検討する。
その結果, 文表現は, 全層にまたがる4つのASCに対応する異なるクラスタを形成することがわかった。
これは、脳に拘束された比較的単純なリカレントニューラルネットワークでさえ、様々な構成タイプを効果的に区別できることを示している。
論文 参考訳(メタデータ) (2024-08-06T09:27:41Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - Insights on Neural Representations for End-to-End Speech Recognition [28.833851817220616]
エンドツーエンド自動音声認識(ASR)モデルは、一般化された音声表現を学習することを目的としている。
相関解析手法を用いたネットワーク類似性の調査は、エンド・ツー・エンドASRモデルでは行われていない。
本稿では,CNN,LSTM,Transformerをベースとしたトレーニングにおいて,レイヤ間の内部ダイナミクスを解析し,検討する。
論文 参考訳(メタデータ) (2022-05-19T10:19:32Z) - Learning Signal-Agnostic Manifolds of Neural Fields [50.066449953522685]
ニューラルネットワークを利用して、画像、形状、オーディオ、およびモーダル・オーディオヴィジュアル領域の基盤となる構造を捉える。
GEMの基底多様体を横切ることで、信号領域に新しいサンプルを生成できることが示される。
論文 参考訳(メタデータ) (2021-11-11T18:57:40Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z) - A journey in ESN and LSTM visualisations on a language task [77.34726150561087]
我々は,CSL(Cross-Situationnal Learning)タスクでESNとLSTMを訓練した。
その結果, 性能比較, 内部力学解析, 潜伏空間の可視化の3種類が得られた。
論文 参考訳(メタデータ) (2020-12-03T08:32:01Z) - Analyzing analytical methods: The case of phonology in neural models of
spoken language [44.00588930401902]
本稿では,音声言語のニューラルネットワークモデルにおける音韻表現の事例について検討する。
我々は2つの一般的な分析手法を用いて、音素配列と音素シーケンスを符号化するニューラルアクティベーションパターンの程度を定量化する。
論文 参考訳(メタデータ) (2020-04-15T13:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。