論文の概要: Sparse Autoencoders Map Brain-LLM Alignment onto Cortical Semantic Topography
- arxiv url: http://arxiv.org/abs/2605.23035v1
- Date: Thu, 21 May 2026 21:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.099169
- Title: Sparse Autoencoders Map Brain-LLM Alignment onto Cortical Semantic Topography
- Title(参考訳): スパースオートエンコーダは脳-LLMアライメントを皮質セマンティックトポグラフィーにマッピングする
- Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu,
- Abstract要約: 意味的特徴だけでピークエンコーディング性能の94%を回復することを示す。
また,SAEによって発見された特徴が,既知の皮質意味組織を再カプセル化することを示す。
結果は英語、中国語、フランス語で一般化される。
- 参考スコア(独自算出の注目度): 13.891522069967507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intermediate layers of large language models (LLMs) best predict human brain responses to language, one of the most robust findings in computational neurolinguistics, yet why remains mechanistically unexplained. We address this gap by bridging sparse autoencoders (SAEs) from mechanistic interpretability with neural encoding models, decomposing GPT-2 XL and Llama-3.1-8B into 16K-32K interpretable features per layer. A human-validated taxonomy ($κ\geq 0.74$) reveals that semantic features alone recover 94% of peak encoding performance ($r=0.285$), substantially exceeding variance-matched baselines ($p<0.001$, $d=1.31$). Beyond this aggregate dominance, we test a novel cortical topography prediction: five semantic subcategories derived a priori from three independent neuroscience programs should map onto distinct brain regions. A formal convergence test confirms this alignment (Spearman $ρ=0.72$, $p<0.001$; hypergeometric $p=0.007$), demonstrating that SAE-discovered features recapitulate known cortical semantic organization at a granularity inaccessible to prior methods. SAE features further predict human reading times beyond lexical controls ($Δ\mathrm{logLik}=38.4$, $p<0.001$), and an exploratory prediction-error analysis provides preliminary evidence that the brain additionally encodes unexpected semantic content. Results generalize across English, Chinese, and French.
- Abstract(参考訳): 大規模言語モデル(LLM)の中間層は、計算神経言語学における最も堅牢な発見の1つである言語に対する人間の脳反応を最もよく予測するが、なぜ機械的に説明されていないのか。
このギャップに対処するために、スパースオートエンコーダ(SAE)をニューラルネットワークモデルによる機械的解釈性からブリッジし、GPT-2 XLとLlama-3.1-8Bを層ごと16K-32Kに分解する。
人為的な分類法(κ\geq 0.74$)は、意味的特徴だけでピークエンコーディングのパフォーマンスの94%(r=0.285$)を回復し、分散マッチングベースライン(p<0.001$, $d=1.31$)を大幅に超えている。
独立した3つの神経科学プログラムから派生した5つのセマンティックサブカテゴリは、異なる脳領域にマッピングされるべきである。
公式収束テストでは、このアライメント(Spearman $ρ=0.72$, $p<0.001$; hypergeometric $p=0.007$)を確認し、SAEによって発見された特徴が、既知の皮質意味組織を、以前の方法に到達できない粒度で再カプセル化することを示した。
SAEは、語彙制御(Δ\mathrm{logLik}=38.4$, $p<0.001$)を超えて、人間の読み取り時間を予測している。
結果は英語、中国語、フランス語で一般化される。
関連論文リスト
- Language Model Circuits Are Sparse in the Neuron Basis [50.460651620833055]
その結果, textbfMLP ニューロンは SAE と同様の機能的基盤であることがわかった。
この作業は、追加のトレーニングコストなしで言語モデルの自動解釈可能性を向上させる。
論文 参考訳(メタデータ) (2026-01-30T05:41:19Z) - Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space [56.37266873329401]
大規模言語モデル (LLM) は、高度に一様でない情報密度を示す言語にもかかわらず、全てのトークンに一様計算を適用する。
我々は,潜在表現から意味境界を学習し,トークンから推論がより効率的である圧縮概念空間へ移行する階層型言語モデリングフレームワークである$textbfDynamic Large Concept Models (DLCM)$を提案する。
論文 参考訳(メタデータ) (2025-12-31T04:19:33Z) - Real-time nonlinear inversion of magnetic resonance elastography with operator learning [0.06797079068199119]
oNLIフレームワークは、NLIに匹敵する空間精度を持つエラストグラムのリアルタイムMREインバージョン(30,000倍高速化)を可能にする。
MRE文学におけるソフト事前正規化に類似した構造的事前機構が,空間的精度を向上させるために組み込まれている。
論文 参考訳(メタデータ) (2025-10-03T08:55:40Z) - Information Locality as an Inductive Bias for Neural Language Models [52.92279412466086]
本稿では,Transformer と LSTM LM の言語学習において,$m$local entropy は困難であることを示す。
これらの結果は、ニューラルネットワークが言語の統計構造に非常に敏感であることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T15:21:05Z) - Probing Neural Topology of Large Language Models [12.298921317333452]
本稿では,大規模言語モデルの機能的接続を明らかにするためのグラフ探索手法を提案する。
多様なLLMファミリーやスケールのモデルを探索することにより、次の予測性能の普遍的な予測可能性を見出す。
興味深いことに、トポロジーの探索は、最大130.4%のアクティベーションでの探索よりも優れている。
論文 参考訳(メタデータ) (2025-06-01T14:57:03Z) - Explanations of Large Language Models Explain Language Representations in the Brain [5.7916055414970895]
本稿では、言語処理と脳神経活動の関連性を高めるために、説明可能なAI(XAI)を用いた新しいアプローチを提案する。
帰属法を適用することで,先行する単語が予測に与える影響を定量化する。
より強い属性は、生物学的説明法を評価するために脳のアライメントを示唆している。
論文 参考訳(メタデータ) (2025-02-20T16:05:45Z) - Interpretable Next-token Prediction via the Generalized Induction Head [59.500195503897764]
一般化帰納型モデル (GIM) は次点予測のための解釈可能なモデルである。
言語モデリングでは、GIMは解釈可能なベースラインに対して最大25%の速さで次世代の予測を改善する。
fMRI設定では、GIMは神経反応予測を20%改善する。
論文 参考訳(メタデータ) (2024-10-31T12:33:26Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - Long-range and hierarchical language predictions in brains and
algorithms [82.81964713263483]
深層言語アルゴリズムは隣接した単語の予測に最適化されているが、人間の脳は長距離で階層的な予測を行うように調整されている。
本研究は、予測符号化理論を強化し、自然言語処理における長距離および階層的予測の重要な役割を示唆する。
論文 参考訳(メタデータ) (2021-11-28T20:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。