論文の概要: Weight Patching: Toward Source-Level Mechanistic Localization in LLMs
- arxiv url: http://arxiv.org/abs/2604.13694v1
- Date: Wed, 15 Apr 2026 10:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.484754
- Title: Weight Patching: Toward Source-Level Mechanistic Localization in LLMs
- Title(参考訳): 軽量パッチ:LLMにおけるソースレベルメカニスティックローカライゼーションに向けて
- Authors: Chenghao Sun, Chengsheng Zhang, Guanzheng Qin, Rui Dai, Xinmei Tian,
- Abstract要約: 重み付き同一アーキテクチャモデルにおけるソース指向解析のためのパラメータ空間介入手法であるWeight Patchingを提案する。
本稿では,タスク関連制御状態が形成されたかどうかの共通内部規準を提供する,ベクトル・アンカー・ビヘイビア・インタフェースを中心にしたフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.558998651017374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability seeks to localize model behavior to the internal components that causally realize it. Prior work has advanced activation-space localization and causal tracing, but modules that appear important in activation space may merely aggregate or amplify upstream signals rather than encode the target capability in their own parameters. To address this gap, we propose Weight Patching, a parameter-space intervention method for source-oriented analysis in paired same-architecture models that differ in how strongly they express a target capability under the inputs of interest. Given a base model and a behavior-specialized counterpart, Weight Patching replaces selected module weights from the specialized model into the base model under a fixed input. We instantiate the method on instruction following and introduce a framework centered on a vector-anchor behavioral interface that provides a shared internal criterion for whether a task-relevant control state has been formed or recovered in open-ended generation. Under this framework, the analysis reveals a hierarchy from shallow candidate source-side carriers to aggregation and routing modules, and further to downstream execution circuits. The recovered component scores can also guide mechanism-aware model merging, improving selective fusion across the evaluated expert combinations and providing additional external validation.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic interpretability)は、モデル動作を因果的に認識する内部コンポーネントにローカライズしようとするものである。
以前の作業では、アクティベーション空間の局所化と因果トレースが進んだが、アクティベーション空間で重要なように見えるモジュールは、ターゲットの能力を自身のパラメータにエンコードするのではなく、単に上流の信号を集約または増幅するだけである。
このギャップに対処するために、興味の入力下でターゲット能力がどれだけ強く表現されるかが異なるペア同アーキテクチャモデルにおいて、ソース指向解析のためのパラメータ空間干渉法であるWeight Patchingを提案する。
ベースモデルと行動特化モデルが与えられたとき、Weight Patchingは特定のモデルから選択したモジュール重みを固定入力の下でベースモデルに置き換える。
本稿では,タスク関連制御状態が形成されたか,あるいはオープンな世代に復元されたかを示す共通内部基準を提供する,ベクトル・アンカー・ビヘイビア・インタフェースを中心としたフレームワークをインスタンス化し,提案手法を導入する。
このフレームワークでは、浅い候補のソース側キャリアからアグリゲーションとルーティングモジュール、さらに下流実行回路への階層構造が明らかになった。
回復したコンポーネントスコアは、メカニズムを意識したモデルマージをガイドし、評価された専門家の組み合わせ間の選択的融合を改善し、追加の外部バリデーションを提供する。
関連論文リスト
- Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - ITL-LIME: Instance-Based Transfer Learning for Enhancing Local Explanations in Low-Resource Data Settings [9.48243749038739]
LIME(Local Interpretable Model-Agnostic Explanations)は、ブラックボックス機械学習モデルの解釈可能性を向上させる。
LIMEの摂動とサンプリングにおける固有のランダム性は、局所性と不安定性の問題を引き起こす。
本稿では,データ制約環境における説明の忠実さと安定性を高めるための新しいインスタンスベーストランスファーラーニングLIMEフレームワーク(ITL-LIME)を提案する。
論文 参考訳(メタデータ) (2025-08-19T09:18:20Z) - REAL: Reading Out Transformer Activations for Precise Localization in Language Model Steering [26.428347164111926]
推論時ステアリングは、パラメータを変更することなく、大きな言語モデルの応答を変更することを目的としている。
既存のアプローチはしばしば単純化的なキューやアドホックな一般化に依存している。
本稿では,Transformerモデルにおける振る舞い関連モジュールを識別するフレームワークであるREALを紹介する。
論文 参考訳(メタデータ) (2025-06-10T02:16:50Z) - OSM: Leveraging Model Checking for Observing Dynamic 1 behaviors in
Aspect-Oriented Applications [0.0]
観測ベース統計モデルチェック(OSM)フレームワークは、基本的なシステムコードから直接実行可能な形式モデルを構築するために開発された。
これにより、プリコンディションシフト中の電子健康記録システムの未収量性能が保証される。
論文 参考訳(メタデータ) (2024-03-03T00:03:34Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。