論文の概要: Continuous-Depth Field Theory for Transformer Patching and Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2605.25225v1
- Date: Sun, 24 May 2026 19:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.030451
- Title: Continuous-Depth Field Theory for Transformer Patching and Mechanistic Interpretability
- Title(参考訳): 変圧器パッチングの連続深さ場理論と機械論的解釈可能性
- Authors: David N. Olivieri, Antonio F. Pérez Rodríguez,
- Abstract要約: 本稿では,そのような介入を整理し,予測するための場の理論的枠組みを開発する。
残留ストリームを深度対応フィールドとして扱うことにより,パッチを局所的なソース挿入として,パッチ効果を感度場予測として,下流伝播を経験的グリーン関数応答として,パッチ選択を随伴変分問題として定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability often uses activation patching, causal tracing, path patching, and steering directions to reveal behaviorally meaningful directions in Transformer activation space. This paper develops a field-theoretic framework for organizing and predicting such interventions. Treating the residual stream as a depth-token field, we formulate patching as localized source insertion, patch effects as sensitivity-field predictions, downstream propagation as empirical Green-function response, and patch selection as an adjoint variational problem. Empirically, we test the forward response theory in GPT-2-style autoregressive Transformers by applying localized residual-field interventions and observing the induced residual-field differences and logit-difference responses. We identify a bounded local linear regime; predict patch effects from first-order sensitivities across residual sites; measure structured anisotropic propagation across depth and token position; construct response descriptions from high-sensitivity sites and sliced Green operators; and show that prompt-induced residual displacements can transfer answer behavior. These results establish response objects, namely sensitivities, propagated fields, and Green-operator slices, as a practical language for organizing patching experiments and as the forward mathematical basis for formulating patch-site inference and cross-scale transfer.formulated.
- Abstract(参考訳): 機械的解釈可能性はしばしば、アクティベーションパッチ、因果トレース、パスパッチ、およびステアリング方向を使用して、トランスフォーマーのアクティベーション空間における振る舞いに意味のある方向を明らかにする。
本稿では,そのような介入を整理し,予測するための場の理論的枠組みを開発する。
残留ストリームを深度対応フィールドとして扱うことにより,パッチを局所的なソース挿入として,パッチ効果を感度場予測として,下流伝播を経験的グリーン関数応答として,パッチ選択を随伴変分問題として定式化する。
実験により, GPT-2方式の自己回帰変換器における前方応答理論を, 局所的な残留場干渉を適用し, 誘導残留場差と対数差の応答を観察することによって検証した。
我々は,有界局所線形系を同定し,残留部位の1次感度によるパッチ効果の予測,深度とトークン位置における構造的異方性伝搬の測定,高感度部位とスライスグリーン演算子からの応答記述の構築,および急激な残留変位が応答挙動を伝達できることを示す。
これらの結果は、パッチ実験を組織化するための実用的な言語として、パッチサイト推論とクロススケール転送を定式化するための前方数学的基礎として、感度、伝搬場、グリーン演算子スライスといった応答オブジェクトを確立した。
関連論文リスト
- Residual Connections and the Causal Shift: Uncovering a Structural Misalignment in Transformers [9.617245548268437]
大規模言語モデル(LLM)は、自動回帰変換器で実装された次世代の予測で訓練される。
残余接続は現在のトークンとアクティベーションを結び付け、監督は次のトークンをターゲットとします。
固定層介入や学習可能なゲーティング機構として実装された残差減衰に基づく軽量残差経路緩和法を提案する。
論文 参考訳(メタデータ) (2026-02-16T14:04:42Z) - Beyond Mapping : Domain-Invariant Representations via Spectral Embedding of Optimal Transport Plans [3.075071396300441]
本稿では、ソースとターゲットドメインを接続する二部グラフの隣接行列として、スムーズな輸送計画の解釈を提案する。
我々は,音楽ジャンル認識,音楽音声識別,電線欠陥検出,分類タスクのための音響適応ベンチマークの評価を行った。
論文 参考訳(メタデータ) (2026-01-19T19:38:59Z) - On Exact Editing of Flow-Based Diffusion Models [97.0633397035926]
本研究では,フローベース編集を既知ソースによって駆動される分散変換問題として再構成する条件付き速度補正(CVC)を提案する。
CVCは、双対パースペクティブな速度変換機構を導入することにより、分配間変換における速度の役割を再考する。
我々は,CVCが優れた忠実度,セマンティックアライメント,多種多様なタスクに対する信頼性の高い編集動作を一貫して達成していることを示す。
論文 参考訳(メタデータ) (2025-12-30T06:29:20Z) - Transformers through the lens of support-preserving maps between measures [17.447252333183616]
我々は,測度間の地図がトランスフォーマーであるかどうかを考察する。
一方、変換器には変換器が含まれ、一方、変換器は連続なインコンテキスト写像を持つ表現を普遍的に近似する。
測度論的な自己アテンションは、無限の深さ、平均場測度論的な変換器がヴラソフフローと同一視できることを保証する性質を持つことを示す。
論文 参考訳(メタデータ) (2025-09-30T00:15:33Z) - DRIFT: Divergent Response in Filtered Transformations for Robust Adversarial Defense [3.8409038268900404]
グラデーション・コンセンサスは 逆転性の主要な要因です
我々は、勾配のコンセンサスを積極的に破壊するように訓練された軽量で学習可能なフィルタの集合である textbfDRIFT (Divergent Response in Filtered Transformations) を導入する。
DRIFTは、無視可能なランタイムとメモリコストの改善を提供し、敵防衛の実用的で一般化可能な原則として勾配分散を確立している。
論文 参考訳(メタデータ) (2025-09-29T06:57:47Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - Unifying Perplexing Behaviors in Modified BP Attributions through Alignment Perspective [61.5509267439999]
GBP, RectGrad, LRP, DTD などの手法の統一理論フレームワークを提案する。
活性化ニューロンの重みを結合して入力アライメントを実現することを実証した。
このアライメントにより、可視化品質が向上し、重量ランダム化に対する感度が低下する。
論文 参考訳(メタデータ) (2025-03-14T07:58:26Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Which Invariance Should We Transfer? A Causal Minimax Learning Approach [18.71316951734806]
本稿では、因果的観点からの包括的ミニマックス分析について述べる。
最小の最悪のリスクを持つサブセットを探索する効率的なアルゴリズムを提案する。
本手法の有効性と有効性は, 合成データとアルツハイマー病の診断で実証された。
論文 参考訳(メタデータ) (2021-07-05T09:07:29Z) - Prediction and Generalisation over Directed Actions by Grid Cells [6.7141720056953895]
指示された行動が新しい状況にどのように一般化されるかを知ることは、急速な一般化の鍵となる。
近年の研究では、ニューラルネットワークコードによって状態空間の効率的な表現が提案されている。
本研究では,一組の固有ベクトルが,アクション固有固有値を介して任意の指示行動に対する予測をサポートすることを示す。
論文 参考訳(メタデータ) (2020-06-05T10:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。