論文の概要: Stroke Lesions as a Rosetta Stone for Language Model Interpretability
- arxiv url: http://arxiv.org/abs/2602.04074v1
- Date: Tue, 03 Feb 2026 23:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.306084
- Title: Stroke Lesions as a Rosetta Stone for Language Model Interpretability
- Title(参考訳): 言語モデル解釈のためのロゼッタ石としてのストローク病変
- Authors: Julius Fridriksson, Roger D. Newman-Norlund, Saeed Ahmadi, Regan Willis, Nadra Salman, Kalil Warren, Xiang Guan, Yong Yang, Srihari Nelakuditi, Rutvik Desai, Leonardo Bonilha, Jeff Charney, Chris Rorden,
- Abstract要約: 本稿では、大規模な言語モデルを評価するための外部参照構造として、Brain-LLM Unified Model(BLUM)を提案する。
慢性期脳卒中後失語患者のデータを用いて,行動的エラープロファイルから脳損傷位置を予測する症状・症状・症状モデルを構築した。
BLUMのエラープロファイルは、偶然に一致したヒトの実際の病変に対応するような、人間のエラープロファイルと十分に類似していた。
- 参考スコア(独自算出の注目度): 6.528508321422611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable capabilities, yet methods to verify which model components are truly necessary for language function remain limited. Current interpretability approaches rely on internal metrics and lack external validation. Here we present the Brain-LLM Unified Model (BLUM), a framework that leverages lesion-symptom mapping, the gold standard for establishing causal brain-behavior relationships for over a century, as an external reference structure for evaluating LLM perturbation effects. Using data from individuals with chronic post-stroke aphasia (N = 410), we trained symptom-to-lesion models that predict brain damage location from behavioral error profiles, applied systematic perturbations to transformer layers, administered identical clinical assessments to perturbed LLMs and human patients, and projected LLM error profiles into human lesion space. LLM error profiles were sufficiently similar to human error profiles that predicted lesions corresponded to actual lesions in error-matched humans above chance in 67% of picture naming conditions (p < 10^{-23}) and 68.3% of sentence completion conditions (p < 10^{-61}), with semantic-dominant errors mapping onto ventral-stream lesion patterns and phonemic-dominant errors onto dorsal-stream patterns. These findings open a new methodological avenue for LLM interpretability in which clinical neuroscience provides external validation, establishing human lesion-symptom mapping as a reference framework for evaluating artificial language systems and motivating direct investigation of whether behavioral alignment reflects shared computational principles.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい機能を達成したが、どのモデルコンポーネントが言語機能に本当に必要なのかを検証する方法はまだ限られている。
現在の解釈可能性のアプローチは、内部メトリクスに依存し、外部の検証を欠いている。
脳-LLM統一モデル(Brain-LLM Unified Model, BLUM)は, LLM摂動効果を評価するための外部参照構造として, 1世紀以上にわたって因果性脳-行動関係を確立するための金の基準である病変-症状マッピングを利用するフレームワークである。
慢性期後失語症 (N=410) の患者から得られたデータを用いて, 行動的エラープロファイルから脳損傷位置を予測する症状・症状モデル, 組織的摂動をトランスフォーマー層に適用し, 摂動性LLM患者とヒト患者に同一の臨床評価を施し, ヒトの病変空間にLLM誤差プロファイルを投影した。
LLMのエラープロファイルは、画像命名条件の67% (p < 10^{-23}) と68.3% (p < 10^{-61}) のエラーマッチングされたヒトの実際の病変と一致した人間のエラープロファイルと十分に類似していた。
これらの知見は, 臨床神経科学が外的検証を提供し, 人間の病変-症状マッピングを人工言語システム評価の基準枠組みとして確立し, 行動アライメントが共有計算原理を反映するかどうかを直接調査する, 新たな方法の道を開いた。
関連論文リスト
- A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Component-Level Lesioning of Language Models Reveals Clinically Aligned Aphasia Phenotypes [40.41503864764337]
大規模言語モデルにおける機能的コンポーネントを選択的に摂動することで失語をシミュレートするコンポーネントレベルフレームワークを提案する。
我々のパイプラインはBrocaとWernickeの失語に対するサブタイプリンクコンポーネントを特定し、トップkサブタイプリンクコンポーネントを段階的に摂動させることにより、段階的障害を誘発する。
アーキテクチャや障害戦略を越えて、サブタイプターゲットの摂動は、サイズにマッチしたランダムな摂動よりも、より体系的で失語症のような回帰をもたらす。
論文 参考訳(メタデータ) (2026-01-27T15:47:22Z) - A Monosemantic Attribution Framework for Stable Interpretability in Clinical Neuroscience Large Language Models [9.694820939059339]
解釈可能性は、アルツハイマー病の進行診断のような臨床環境において、大きな言語モデル(LLM)をデプロイする上で重要な課題である。
帰属的・機械的視点を統合した統合的解釈可能性フレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-25T19:03:04Z) - Plausibility as Failure: How LLMs and Humans Co-Construct Epistemic Error [0.0]
この研究は、異なる形のてんかんが出現し、マスクされ、人間のAI相互作用に許容されるかを調べる。
評価者はしばしば、正確性、妥当性、バイアス、基底性、一貫性などの基準を混同し、人間の判断が分析的区別を形と流布によって形づくられた直観に分解することを示す。
この研究は、LLMアセスメント、デジタルリテラシー、そして信頼できる人間AIコミュニケーションの設計に影響を及ぼす。
論文 参考訳(メタデータ) (2025-12-18T16:45:29Z) - Limitations of Large Language Models in Clinical Problem-Solving Arising from Inflexible Reasoning [3.3482359447109866]
LLM(Large Language Models)は、医療質問応答(QA)ベンチマークにおいて人間レベルの精度を達成した。
オープンエンドの臨床シナリオをナビゲートする際の制限が最近示されている。
医学的抽象化と推論コーパス(M-ARC)について紹介する。
現状のo1モデルやGeminiモデルを含むLSMは,M-ARCの医師と比較して性能が劣ることがわかった。
論文 参考訳(メタデータ) (2025-02-05T18:14:27Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - A Tale of Two Perplexities: Sensitivity of Neural Language Models to
Lexical Retrieval Deficits in Dementia of the Alzheimer's Type [10.665308703417665]
近年,認知症患者が発声した音声サンプルと健常者から発声した音声サンプルを区別するための計算手法の使用に対する関心が高まっている。
2つのニューラルネットワークモデル(LM)からのパープレキシティ推定の違いは、最先端の性能をもたらすことが示されている。
我々は, ニューラルLMのパープレキシティは, 語彙周波数と強く, 差分関係が強く, 補間制御と認知症から生じる混合モデルは, 転写テキストでのみ訓練されたモデルに対する現在の最先端のモデルにより改善されることを見出した。
論文 参考訳(メタデータ) (2020-05-07T16:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。