論文の概要: Do Language Models Align with Brains? Prediction Scores Are Not Enough
- arxiv url: http://arxiv.org/abs/2605.14025v1
- Date: Wed, 13 May 2026 18:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.458606
- Title: Do Language Models Align with Brains? Prediction Scores Are Not Enough
- Title(参考訳): 言語モデルと脳は一致しているか?予測スコアは十分ではない
- Authors: Xiao Jia,
- Abstract要約: L-PACTは、予測、リレーショナル、メカニズムストリッピング、信頼性に縛られたエビデンスを評価する、ソース監査されたフレームワークである。
L-PACTは、一次自然言語ニューラルデータセットと導出言語モデル表現全体にわたって、モデルから脳へのプロファイルが脳から脳へのパターンを再現したかどうかを検証した。
予測的、リレーショナル、メカニズムストリッピング、あるいは運用上のチューリングバウンドの信頼性ゲートを通過した真のモデル行はありません。
- 参考スコア(独自算出の注目度): 0.6331422666055228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brain-language model comparisons often interpret neural prediction scores as evidence that model representations capture brain-relevant language computation. We asked whether language models align with brains, and whether prediction scores are enough to support that claim, using L-PACT, a source-audited framework that evaluates predictive, relational, mechanism-stripping, and reliability-bounded evidence. Across primary naturalistic language neural datasets and derived language-model representations, L-PACT compared real model features with nuisance baselines and severe controls, tested whether model-to-brain profiles reproduced brain-to-brain patterns, recomputed held-out scores after mechanism stripping, and normalized evidence against brain-brain ceilings. The locked analysis set contains 414 predictive-control rows, 2304 relational profile rows, 4320 mechanism-stripping rows, 420 brain-brain ceiling rows, and 146 integrated decision rows. Assay-sensitivity checks showed that brain-brain reliability, brain-as-model run-to-run relational profiles, independent low-level neural and WAV-derived acoustic-envelope gates, and a deterministic implanted-signal simulation can produce positive evidence when expected. Nevertheless, no real model row passed the predictive, relational, mechanism-stripping, or operational Turing-bounded reliability gates; all 146 integrated rows were control-explained. Less stringent single-criterion rules would have counted raw positive predictive, relational, stripping-delta, and ceiling-normalized effects, but L-PACT downgraded them because controls explained the apparent evidence. In the analyzed derived artifact set, the tested language-model representations do not satisfy L-PACT alignment gates; apparent positives are converted into an auditable control-explained taxonomy rather than treated as structural alignment.
- Abstract(参考訳): 脳言語モデルの比較はしばしば、モデル表現が脳関連言語計算を捉える証拠として神経予測スコアを解釈する。
我々は、言語モデルが脳と一致しているか、そして予測スコアがその主張を支持するのに十分であるかどうかを尋ね、L-PACTを用いて予測、リレーショナル、メカニズムストリッピング、信頼性に縛られた証拠を評価する。
一次言語ニューラルデータセットと派生言語モデル表現全体で、L-PACTは、実際のモデル特徴とニュアンスベースラインと厳密な制御を比較し、モデル・トゥ・ブレインプロファイルが脳-脳-脳パターンを再現したかどうか、メカニズム・ストリッピング後のホールドアウトスコアを再計算し、脳-脳天井に対する正常なエビデンスを検証した。
ロックされた分析セットは、予測制御行414、関係プロファイル行2304、メカニズムストリップ行4320、脳脳天井行420、統合決定行146を含む。
アッセイ感度検査では、脳脳の信頼性、脳-アズ-モデルラン-ラン関係プロファイル、独立した低レベル神経およびWAV由来音響-エンベロープゲート、および決定論的埋込み信号シミュレーションが期待された時に肯定的な証拠を生じることが示された。
それでも、実際のモデル行は予測的、リレーショナル、メカニズムストリッピング、あるいは運用上のチューリングバウンドの信頼性ゲートを通過せず、統合された146行はすべて制御説明されていた。
厳密な単一基準ルールは、生の正の予測、リレーショナル、ストリップデルタ、天井の正規化効果をカウントしていたが、L-PACTは明らかな証拠を説明できるため、それらを格下げした。
解析された派生人工物セットでは、試験された言語モデル表現はL-PACTアライメントゲートを満足せず、明らかな陽性は構造的アライメントとして扱われるのではなく、監査可能な制御説明された分類に変換される。
関連論文リスト
- Position: Logical Soundness is not a Reliable Criterion for Neurosymbolic Fact-Checking with LLMs [6.916679603940271]
いくつかのニューロシンボリックシステムは、自然言語を論理式に変換するために大きな言語モデル(LLM)を用いて主張を検証する。
このようなアプローチは、論理的に健全な結論と人間が通常行う推論の体系的な相違により、構造的に誤解を招く主張を検出するのに失敗する、と我々は主張する。
論文 参考訳(メタデータ) (2026-04-05T16:48:57Z) - Predicting Neuromodulation Outcome for Parkinson's Disease with Generative Virtual Brain Model [95.41752463487008]
パーキンソン病は世界中で1千万人以上に影響している。
個人間変異は経験的治療の選択を制限し、非無視的な外科的リスクとコストを増大させる。
我々は、このギャップをトレーニング済みのファインタニングフレームワークで埋めて、静止状態fMRIから直接結果を予測する。
論文 参考訳(メタデータ) (2026-03-31T02:36:10Z) - Do Sparse Autoencoders Identify Reasoning Features in Language Models? [12.693974363520423]
大規模言語モデル(LLM)において,スパースオートエンコーダ(SAE)が真の推論特徴を識別するかどうかを検討する。
我々はまず、$ell_$-regularized SAEsが本質的に低次元パターンに偏っているという単純な理論分析を通して示す。
このバイアスに触発され,機能活性化が推論過程を反映しているか,あるいは表層言語的相関を反映しているかを検証するために,ファルシフィケーション指向評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-09T09:54:36Z) - Catch Me If You Can: How Smaller Reasoning Models Pretend to Reason with Mathematical Fidelity [15.774418410083515]
表面パターンマッチングと実際の数学的推論を区別する診断フレームワークを提案する。
我々は表面性能と推論忠実度の間に顕著な不一致を明らかにした。
私たちの診断では、従来の精度メトリクスには見えない推論の失敗を明らかにします。
論文 参考訳(メタデータ) (2025-11-29T16:47:01Z) - CALM: A Causal Analysis Language Model for Tabular Data in Complex Systems with Local Scores, Conditional Independence Tests, and Relation Attributes [15.298086464296235]
観測データからの因果発見は生物学のような科学分野に不可欠である。
制約ベースのアプローチやスコアベースのアプローチを含む既存の手法は、重大な制限に直面している。
本稿では,表データに特化して設計された新しい因果解析言語CALMを紹介する。
論文 参考訳(メタデータ) (2025-10-10T20:19:20Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Generative causal testing to bridge data-driven models and scientific theories in language neuroscience [82.995061475971]
脳における言語選択性の簡潔な説明を生成するためのフレームワークである生成因果テスト(GCT)を提案する。
GCTは機能的選択性に類似した脳領域の細粒度の違いを識別できることを示す。
論文 参考訳(メタデータ) (2024-10-01T15:57:48Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。