論文の概要: Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks
- arxiv url: http://arxiv.org/abs/2511.16849v1
- Date: Thu, 20 Nov 2025 23:11:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.83786
- Title: Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks
- Title(参考訳): より良い音声表現はより脳に近い:下流聴覚タスクにおけるモデル脳アライメントとパフォーマンスのリンク
- Authors: Leonardo Pepino, Pablo Riera, Juan Kamienkowski, Luciana Ferrer,
- Abstract要約: 我々は,36種類の音響モデルの内部表現と2つの独立したfMRIデータセットからの脳活動のアライメントを定量化した。
HEAREvalベンチマークから,音楽,音声,環境音を対象とし,これらのモデルを6つの聴覚タスクで評価した。
脳の類似性は、この目的に明示的に最適化されていないにもかかわらず、事前訓練中に徐々に増加し、早期に出現することを発見した。
- 参考スコア(独自算出の注目度): 8.286359807714252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial neural networks (ANNs) are increasingly powerful models of brain computation, yet it remains unclear whether improving their task performance also makes their internal representations more similar to brain signals. To address this question in the auditory domain, we quantified the alignment between the internal representations of 36 different audio models and brain activity from two independent fMRI datasets. Using voxel-wise and component-wise regression, and representation similarity analysis (RSA), we found that recent self-supervised audio models with strong performance in diverse downstream tasks are better predictors of auditory cortex activity than older and more specialized models. To assess the quality of the audio representations, we evaluated these models in 6 auditory tasks from the HEAREval benchmark, spanning music, speech, and environmental sounds. This revealed strong positive Pearson correlations ($r>0.7$) between a model's overall task performance and its alignment with brain representations. Finally, we analyzed the evolution of the similarity between audio and brain representations during the pretraining of EnCodecMAE. We discovered that brain similarity increases progressively and emerges early during pretraining, despite the model not being explicitly optimized for this objective. This suggests that brain-like representations can be an emergent byproduct of learning to reconstruct missing information from naturalistic audio data.
- Abstract(参考訳): 人工知能ニューラルネットワーク(ANN)は、ますます強力な脳計算モデルとなっているが、そのタスク性能の改善が脳信号とよりよく似た内部表現をもたらすかどうかは不明だ。
聴覚領域におけるこの問題に対処するため,36種類の音響モデルの内部表現と2つの独立したfMRIデータセットからの脳活動のアライメントを定量化した。
ボクセル・ワイド・コンポーネント・ワイド・レグレッションと表現類似性分析 (RSA) を用いて, 様々な下流タスクにおいて高い性能を有する近年の自己教師型音響モデルは, より古い専門モデルよりも聴覚野活動の予測因子として優れていることがわかった。
音声表現の質を評価するため,HEAREvalベンチマークを用いて6つの聴覚課題において,音楽,音声,環境音を対象とするモデルの評価を行った。
これは、モデル全体のタスク性能と脳表現との整合性の間に強い正のピアソン相関(r>0.7$)が認められた。
最後に,EnCodecMAEの事前学習における音声と脳表現の類似性の進化を解析した。
脳の類似性は、この目的に明示的に最適化されていないにもかかわらず、事前訓練中に徐々に増加し、早期に出現することを発見した。
このことは、脳に似た表現が、自然主義的な音声データから欠落した情報を再構築する学習の創発的な副産物になり得ることを示唆している。
関連論文リスト
- TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction [7.864304771129752]
TRIBEは、複数のモードにわたる刺激に対する脳反応を予測するために訓練された最初のディープニューラルネットワークである。
我々のモデルはビデオに対する空間的および時間的fMRI応答を正確にモデル化することができる。
我々のアプローチは、人間の脳における表現の積分モデルを構築するための道を開く。
論文 参考訳(メタデータ) (2025-07-29T20:52:31Z) - Probing Multimodal Fusion in the Brain: The Dominance of Audiovisual Streams in Naturalistic Encoding [1.2233362977312945]
我々は,最先端視覚 (X-CLIP) と聴覚 (Whisper) 特徴抽出器を用いた脳符号化モデルを開発した。
分布内(ID)データと分布外(OOD)データの両方を厳格に評価する。
論文 参考訳(メタデータ) (2025-07-25T08:12:26Z) - Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - Scaling laws for language encoding models in fMRI [47.498241053872924]
我々は、fMRIを用いて記録された脳の反応を予測するために、より大きなオープンソースモデルの方が優れているかどうかを検証した。
同様の対数行動は、fMRIトレーニングセットのサイズを拡大する際に観察された。
これらの結果は、脳内の言語処理の極めて効果的なモデルが得られることを示唆している。
論文 参考訳(メタデータ) (2023-05-19T17:53:03Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids [0.726437825413781]
本稿では, 層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせた, より生物学的に妥当な自己教師型機械学習手法を提案する。
この手法は、よりクリーンなオーディオ再構成とエネルギー効率の両方を考慮した最近の最先端の結果より優れており、スモーザーでスモーザーなニューロンの発火速度分布によって説明されている。
論文 参考訳(メタデータ) (2022-06-06T15:20:07Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。