論文の概要: Toward a Theory of Generalizability in LLM Mechanistic Interpretability Research
- arxiv url: http://arxiv.org/abs/2509.22831v1
- Date: Fri, 26 Sep 2025 18:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.897359
- Title: Toward a Theory of Generalizability in LLM Mechanistic Interpretability Research
- Title(参考訳): LLM機械的解釈可能性研究における一般化可能性の理論に向けて
- Authors: Sean Trott,
- Abstract要約: 機械的主張が一般化する5つの対応軸を提案する。
Pythiaモデルのランダムシードの事前学習における「ワンバックアテンションヘッド」の分析を行った。
- 参考スコア(独自算出の注目度): 3.1304584228602685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on Large Language Models (LLMs) increasingly focuses on identifying mechanistic explanations for their behaviors, yet the field lacks clear principles for determining when (and how) findings from one model instance generalize to another. This paper addresses a fundamental epistemological challenge: given a mechanistic claim about a particular model, what justifies extrapolating this finding to other LLMs -- and along which dimensions might such generalizations hold? I propose five potential axes of correspondence along which mechanistic claims might generalize, including: functional (whether they satisfy the same functional criteria), developmental (whether they develop at similar points during pretraining), positional (whether they occupy similar absolute or relative positions), relational (whether they interact with other model components in similar ways), and configurational (whether they correspond to particular regions or structures in weight-space). To empirically validate this framework, I analyze "1-back attention heads" (components attending to previous tokens) across pretraining in random seeds of the Pythia models (14M, 70M, 160M, 410M). The results reveal striking consistency in the developmental trajectories of 1-back attention across models, while positional consistency is more limited. Moreover, seeds of larger models systematically show earlier onsets, steeper slopes, and higher peaks of 1-back attention. I also address possible objections to the arguments and proposals outlined here. Finally, I conclude by arguing that progress on the generalizability of mechanistic interpretability research will consist in mapping constitutive design properties of LLMs to their emergent behaviors and mechanisms.
- Abstract(参考訳): LLM(Large Language Models)の研究は、その振る舞いに関する機械的説明の特定に重点を置いているが、あるモデルインスタンスからの発見がいつ(そしてどのように)他のモデルインスタンスに一般化されるかを決定するための明確な原則が欠如している。
特定のモデルに関するメカニスティックな主張が与えられたら、この発見を他の LLM への外挿を正当化することは何であり、またそのような一般化がどの次元で成り立つのか?
機能的(同じ機能基準を満たすかどうか)、発達的(事前訓練中に類似点で発達するかどうか)、位置的(類似した絶対的または相対的な位置を占めるかどうか)、関係性(類似した方法で他のモデルコンポーネントと相互作用するかどうか)、構成的(重み空間内の特定の領域や構造に対応するかどうか)である。
この枠組みを実証的に検証するために、Pythiaモデル(14M, 70M, 160M, 410M)のランダムシードの事前学習において、"1-back attention head"(以前のトークンへの参加者)を分析した。
その結果, 位置整合性はより限定される一方, モデル間における1-バック注意の発達軌道における顕著な整合性を示した。
さらに, 大型モデルの種子は, 早期の発症, 急傾斜, 上位の1背の注意のピークを系統的に示していた。
ここで概説された議論や提案に対して、可能な反対に対処する。
最後に、機械論的解釈可能性研究の一般化可能性の進展は、LLMの構成的設計特性をそれらの創発的挙動や機構にマッピングすることによると結論づける。
関連論文リスト
- Can Interpretation Predict Behavior on Unseen Data? [11.280404893713213]
解釈可能性の研究は、モデルが特定のメカニズムに対するターゲットの介入にどのように反応するかを予測することを目的としている。
本稿では,分布外モデル行動を予測するツールとして,解釈可能性の約束と課題について考察する。
論文 参考訳(メタデータ) (2025-07-08T23:07:33Z) - From Thinking to Output: Chain-of-Thought and Text Generation Characteristics in Reasoning Language Models [10.38327947136263]
本稿では、4つの最先端大推論モデルの推論特性を解析するための新しい枠組みを提案する。
多様なデータセットは、論理的推論、因果推論、多段階問題解決を含む実世界のシナリオベースの質問で構成されている。
この研究結果は、これらのモデルがどのように探索と搾取のバランスをとり、問題に対処し、結論に達するかについて様々なパターンを明らかにする。
論文 参考訳(メタデータ) (2025-06-20T14:02:16Z) - ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs [54.154593699263074]
ProtoReasoningは、大規模推論モデルの推論能力を高めるフレームワークである。
ProtoReasoningは問題を対応するプロトタイプ表現に変換する。
ProtoReasoningは論理的推論に基づくベースラインモデルよりも4.7%改善されている。
論文 参考訳(メタデータ) (2025-06-18T07:44:09Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Computation Mechanism Behind LLM Position Generalization [59.013857707250814]
大規模言語モデル(LLM)は、テキストの位置を扱う際の柔軟性を示す。
彼らは位置摂動のあるテキストを理解し、より長いテキストに一般化することができる。
この研究は言語現象とLLMの計算機構を結びつける。
論文 参考訳(メタデータ) (2025-03-17T15:47:37Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Predictive Churn with the Set of Good Models [61.00058053669447]
本稿では,予測的不整合という2つの無関係な概念の関連性について考察する。
予測多重性(英: predictive multiplicity)は、個々のサンプルに対して矛盾する予測を生成するモデルである。
2つ目の概念である予測チャーン(英: predictive churn)は、モデル更新前後の個々の予測の違いを調べるものである。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Building Object-based Causal Programs for Human-like Generalization [0.0]
対象者の因果力の一般化方法を測定する新しいタスクを提案する。
本稿では,人間のような一般化パターンを合成できる計算モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-20T15:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。