論文の概要: Navigating by Old Maps: The Pitfalls of Static Mechanistic Localization in LLM Post-Training
- arxiv url: http://arxiv.org/abs/2605.06076v1
- Date: Thu, 07 May 2026 11:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.743503
- Title: Navigating by Old Maps: The Pitfalls of Static Mechanistic Localization in LLM Post-Training
- Title(参考訳): 旧地図によるナビゲーティング:LLM後の静的メカニスティックな位置決めの落とし穴
- Authors: Hang Chen, Jiaying Zhu, Hongyang Chen, Hongxu Liu, Xinyu Yang, Wenya Wang,
- Abstract要約: 教師付き微調整プロセスを通してトランスフォーマー回路の構造変化を系統的に追跡する。
実験結果から,回路はパラメータ更新時に本質的に「自由進化」を示すことが明らかとなった。
この研究は、機械的ローカライゼーションにおける「予見」の必要性を浮き彫りにし、将来の研究の枠組みを提案する。
- 参考スコア(独自算出の注目度): 59.49057547517285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The "Locate-then-Update" paradigm has become a predominant approach in the post-training of large language models (LLMs), identifying critical components via mechanistic interpretability for targeted parameter updates. However, this paradigm rests on a fundamental yet unverified assumption: can mechanisms derived from current static parameters reliably guide future dynamic parameter updates? To investigate this, we systematically track the structural evolution of Transformer circuits throughout the supervised fine-tuning (SFT) process, revealing the underlying dynamics of task mechanisms. We introduce three novel metrics-Circuit Distance, Circuit Stability, and Circuit Conflict-to analyze circuit evolution across three dimensions: neural migration, semantic stability, and cross-task interference. Our empirical results reveal that circuits inherently exhibit "Free Evolution" during parameter updates. Consequently, static mechanisms extracted from current states inevitably suffer from temporal latency, making them fundamentally inadequate for guiding future states. Moreover, by deconstructing the "illusion of effectiveness" in existing methods, this work underscores the necessity of "foresight" in mechanistic localization and proposes a predictive framework for future research.
- Abstract(参考訳): Locate-then-Update"パラダイムは、大規模言語モデル(LLM)のポストトレーニングにおいて主要なアプローチとなり、ターゲットパラメータ更新のための機械的解釈可能性を通じて重要なコンポーネントを特定する。
現在の静的パラメータから派生したメカニズムは、将来の動的パラメータの更新を確実に導くことができるだろうか?
そこで本研究では,教師付き微調整(SFT)プロセスを通じてトランスフォーマー回路の構造変化を系統的に追跡し,タスク機構の基盤となるダイナミクスを明らかにする。
本稿では,3次元にわたる回路進化を解析するために,ニューラルネットワーク距離,回路安定度,回路競合度という3つの新しい指標を導入する。
実験結果から,回路はパラメータ更新時に本質的に「自由進化」を示すことが明らかとなった。
その結果、現在の状態から抽出された静的メカニズムは、必然的に時間的遅延に悩まされ、将来の状態を導くのに根本的に不十分である。
さらに,既存手法の「有効性のイリュージョン」をデコンストラクションすることで,機械的ローカライゼーションにおける「監視」の必要性を浮き彫りにし,今後の研究の予測枠組みを提案する。
関連論文リスト
- Large Vision-Language Models Get Lost in Attention [51.851592109135716]
本稿では,情報理論と幾何に基づく統合フレームワークを提案し,残差更新の幾何的およびエントロピー的性質を定量化する。
注意は再設定に焦点を当てたサブスペース言語演算子として機能し、FFNはセマンティックイノベーションを駆動するサブスペース言語演算子として機能します。
論文 参考訳(メタデータ) (2026-05-07T04:45:52Z) - KoopGen: Koopman Generator Networks for Representing and Predicting Dynamical Systems with Continuous Spectra [65.11254608352982]
生成元をベースとしたニューラル・クープマン・フレームワークを導入し,構造的かつ状態に依存したクープマン・ジェネレータの表現を通じて動的にモデル化する。
固有のカルテス分解をスキュー結合および自己結合成分に利用することにより、KoopGenは可逆的な散逸から保守的な輸送を分離する。
論文 参考訳(メタデータ) (2026-02-15T06:32:23Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks [3.924071936547547]
ゲーテッドニューラルネットワーク(RNN)は、適応的な学習速度の振る舞いを暗黙的に誘発する。
効果は状態空間の時間スケールとパラメータ空間のダイナミクスの結合から生じる。
経験的シミュレーションはこれらの主張を裏付ける。
論文 参考訳(メタデータ) (2025-08-16T18:19:34Z) - Forecasting Continuous Non-Conservative Dynamical Systems in SO(3) [51.510040541600176]
コンピュータビジョンにおける移動物体の回転をモデル化するための新しい手法を提案する。
我々のアプローチは、入力ノイズに対して頑健でありながら、エネルギーと運動量保存に非依存である。
トレーニング中の雑音状態から物体のダイナミクスを近似させることで、シミュレーションや様々な現実世界の設定において頑健な外挿能力が得られる。
論文 参考訳(メタデータ) (2025-08-11T09:03:10Z) - UP-dROM : Uncertainty-Aware and Parametrised dynamic Reduced-Order Model, application to unsteady flows [27.50487430169627]
還元次数モデル(ROM)は、低コストな予測を提供することによって流体力学において重要な役割を果たす。
ROMが広く適用されるためには、異なる体制にまたがってうまく一般化するだけでなく、その予測に対する信頼度も測らなければならない。
過渡流に特化して設計された非線形還元戦略を提案する。
論文 参考訳(メタデータ) (2025-03-29T22:17:36Z) - Fine-Tuning is Subgraph Search: A New Lens on Learning Dynamics [13.58024883022897]
学習の背後にあるメカニズムを分析するための微調整法を開発した。
固有次元の概念に触発されて、特定のタスクに対する冗長性を持つ計算グラフとしてモデルを考察する。
本稿では,特定のタスクのサブグラフを反復的に構築し,関連するパラメータを一様に更新するアルゴリズムであるサーキットチューニングを提案する。
論文 参考訳(メタデータ) (2025-02-10T02:35:53Z) - Supporting Optimal Phase Space Reconstructions Using Neural Network
Architecture for Time Series Modeling [68.8204255655161]
位相空間特性を暗黙的に学習する機構を持つ人工ニューラルネットワークを提案する。
私たちのアプローチは、ほとんどの最先端戦略と同じくらいの競争力があるか、あるいは優れているかのどちらかです。
論文 参考訳(メタデータ) (2020-06-19T21:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。