論文の概要: Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
- arxiv url: http://arxiv.org/abs/2601.21996v1
- Date: Thu, 29 Jan 2026 17:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.026309
- Title: Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
- Title(参考訳): 機械的データ属性:解釈可能なLLMユニットのトレーニング原点の追跡
- Authors: Jianhui Chen, Yuzhang Luo, Liangming Pan,
- Abstract要約: 本稿では,MDA(Mechanistic Data Attribution)について紹介する。これは,インフルエンス関数を用いて,解釈可能なユニットを特定のトレーニングサンプルにトレースする,スケーラブルなフレームワークである。
本研究は,少数の高影響サンプルを除去または増強する目的の介入が,解釈可能な頭部の出現を顕著に調節することを検証する。
- 参考スコア(独自算出の注目度): 34.05875226612676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Mechanistic Interpretability has identified interpretable circuits in LLMs, their causal origins in training data remain elusive. We introduce Mechanistic Data Attribution (MDA), a scalable framework that employs Influence Functions to trace interpretable units back to specific training samples. Through extensive experiments on the Pythia family, we causally validate that targeted intervention--removing or augmenting a small fraction of high-influence samples--significantly modulates the emergence of interpretable heads, whereas random interventions show no effect. Our analysis reveals that repetitive structural data (e.g., LaTeX, XML) acts as a mechanistic catalyst. Furthermore, we observe that interventions targeting induction head formation induce a concurrent change in the model's in-context learning (ICL) capability. This provides direct causal evidence for the long-standing hypothesis regarding the functional link between induction heads and ICL. Finally, we propose a mechanistic data augmentation pipeline that consistently accelerates circuit convergence across model scales, providing a principled methodology for steering the developmental trajectories of LLMs.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)はLLMの解釈可能な回路を同定しているが、トレーニングデータの因果関係はいまだ解明されていない。
本稿では,MDA(Mechanistic Data Attribution)について紹介する。これは,インフルエンス関数を用いて,解釈可能なユニットを特定のトレーニングサンプルにトレースする,スケーラブルなフレームワークである。
Pythia family での広範囲な実験を通じて、標的の介入が少数の高影響サンプルを除去または増強すること、特に解釈可能な頭部の出現を調節すること、一方ランダムな介入は効果を示さないことを慎重に検証した。
解析の結果,繰り返し構造データ(例:LaTeX,XML)が機械的触媒として機能していることが判明した。
さらに,インコンテキスト学習能力(ICL)の同時変化が誘導頭部形成を標的とした介入によって引き起こされることが観察された。
このことは、誘導ヘッドとICLの間の機能的リンクに関する長年の仮説の直接的な因果的証拠を提供する。
最後に,LLMの発達軌道を制御するための基本手法として,モデルスケール間の回路収束を継続的に促進するメカニスティックデータ拡張パイプラインを提案する。
関連論文リスト
- How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [50.53703102032562]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。
この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文 参考訳(メタデータ) (2025-05-16T08:50:42Z) - Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - SLEM: Machine Learning for Path Modeling and Causal Inference with Super
Learner Equation Modeling [3.988614978933934]
因果推論は科学の重要な目標であり、研究者は観測データを使って意味のある結論に達することができる。
経路モデル、構造方程式モデル(SEM)および指向非巡回グラフ(DAG)は、現象の根底にある因果構造に関する仮定を明確に特定する手段を提供する。
本稿では,機械学習のスーパーラーナーアンサンブルを統合したパスモデリング手法であるSuper Learner Equation Modelingを提案する。
論文 参考訳(メタデータ) (2023-08-08T16:04:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。