論文の概要: Patch-Effect Graph Kernels for LLM Interpretability
- arxiv url: http://arxiv.org/abs/2605.06480v1
- Date: Thu, 07 May 2026 16:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.973747
- Title: Patch-Effect Graph Kernels for LLM Interpretability
- Title(参考訳): LLM解釈性のためのパッチ効果グラフカーネル
- Authors: Ruben Fernandez-Boullon, David N. Olivieri,
- Abstract要約: 機械的解釈可能性(Mechanistic Interpretability)は、アクティベーションパッチによる因果回路の同定によってトランスフォーマー計算をリバースエンジニアリングすることを目的としている。
本稿では,アクティベーション対応プロファイルをモデルコンポーネント上のパッチ効果グラフとして表現することにより,メカニスティック解析をグラフ機械学習問題として再構成するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mechanistic interpretability aims to reverse-engineer transformer computations by identifying causal circuits through activation patching. However, scaling these interventions across diverse prompts and task families produces high-dimensional, unstructured datasets that are difficult to compare systematically. We propose a framework that reframes mechanistic analysis as a graph machine-learning problem by representing activation-patching profiles as patch-effect graphs over model components. We introduce three graph-construction methods: direct-influence via causal mediation, partial-correlation, and co-influence and apply graph kernels to analyze the resulting structures. Evaluating this approach on GPT-2 Small using Indirect Object Identification (IOI) and related tasks, we find that patch-effect graphs preserve discriminative structural signals. Specifically, localized edge-slot features provide higher classification accuracy than global graph-shape descriptors. A screened paired-patching validation suggests that CI and PC selected candidate edges correspond to stronger activation-influence effects than random or low-rank candidates. Crucially, by evaluating these representations against rigorous prompt-only and raw patch-effect controls, we make the evidential scope of the benchmark explicit: graph features compress structured patching signal, while raw tensors and surface cues define strong baselines that any circuit-level claim should address. Ultimately, our framework provides a compression and evaluation pipeline for comparing patching-derived structures under controlled baselines, separating robust slice-discriminative evidence from stronger task-general causal-circuit claims.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、アクティベーションパッチによる因果回路の同定によってトランスフォーマー計算をリバースエンジニアリングすることを目的としている。
しかし、これらの介入を多様なプロンプトやタスクファミリにスケールすると、体系的に比較するのが難しい高次元の非構造化データセットが生成される。
本稿では,アクティベーション対応プロファイルをモデルコンポーネント上のパッチ効果グラフとして表現することにより,メカニスティック解析をグラフ機械学習問題として再構成するフレームワークを提案する。
本稿では, 因果媒介による直接影響, 部分相関, 共影響の3つのグラフ構築法を導入し, 結果の構造解析にグラフカーネルを適用した。
Indirect Object Identification (IOI) と関連するタスクを用いた GPT-2 でのこのアプローチの評価により,パッチ効果グラフが識別的構造信号を保存することがわかった。
特に、ローカライズされたエッジスロット特徴は、グローバルグラフ形状記述子よりも高い分類精度を提供する。
スクリーニングされたペアパッチによる検証では、CIとPCの選択した候補エッジは、ランダムまたはローランクの候補よりも強いアクティベーション-影響効果に対応することが示唆されている。
重要なことに、これらの表現を厳密なプロンプトオンリーおよび生のパッチエフェクトコントロールに対して評価することにより、ベンチマークの明確なスコープを明示する:グラフは構造化されたパッチング信号を圧縮し、一方、生のテンソルと表面キューは、どの回路レベルのクレームも対応すべき強いベースラインを定義する。
最終的に、我々のフレームワークは、制御されたベースラインの下でパッチ由来の構造を比較するための圧縮および評価パイプラインを提供し、より強力なタスク一般因果回路クレームから堅牢なスライス識別的証拠を分離する。
関連論文リスト
- Operational Feature Fingerprints of Graph Datasets via a White-Box Signal-Subspace Probe [0.3058685580689604]
予測およびグラフデータセット診断のためのホワイトボックス信号サブスペースプローブであるWG-SRCを提案する。
学習したメッセージパッシングを、生の特徴を含む固定された名前のグラフ署名辞書に置き換える。
ホワイトボックスグラフ学習装置として、WG-SRCは予測性能を使用して診断の検証を行う。
論文 参考訳(メタデータ) (2026-04-24T16:00:53Z) - Explainability-Guided Adversarial Attacks on Transformer-Based Malware Detectors Using Control Flow Graphs [0.19116784879310025]
本稿では,制御フローグラフを関数呼び出しのシーケンスに線形化するRoBERTaベースのマルウェア検出器の脆弱性について検討する。
このグラフ・ツー・シーケンス・フレームワーク内での回避戦略を評価することにより、トランスフォーマー・ベースのマルウェア検知器の実用的堅牢性について、集約的検出精度以上の知見を提供する。
論文 参考訳(メタデータ) (2026-04-04T19:50:04Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Explainable Attention-Guided Stacked Graph Neural Networks for Malware Detection [2.6436521007616114]
本稿では,グラフベースのマルウェア検出と説明のための新しいスタックングアンサンブルフレームワークを提案する。
本フレームワークは,マルウェアの行動に関する洞察に富んだ解釈を提供しながら,分類性能を向上させる。
論文 参考訳(メタデータ) (2025-08-13T13:33:02Z) - Structural Alignment Improves Graph Test-Time Adaptation [17.564393890432193]
グラフテスト時間適応(GTTA)のための新しいアルゴリズムであるテスト時間構造アライメント(TSA)を導入する。
TSAは、ソースデータにアクセスすることなく、推論中にグラフ構造を整列する。
合成および実世界のデータセットの実験は、TSAが非グラフTTA法と最先端GTTAベースラインの両方で一貫した性能を実証している。
論文 参考訳(メタデータ) (2025-02-25T16:26:25Z) - Graph Structure Refinement with Energy-based Contrastive Learning [56.957793274727514]
グラフの構造と表現を学習するための生成訓練と識別訓練のジョイントに基づく教師なし手法を提案する。
本稿では,ECL-GSR(Energy-based Contrastive Learning)によるグラフ構造再構成(GSR)フレームワークを提案する。
ECL-GSRは、主要なベースラインに対するサンプルやメモリの少ない高速なトレーニングを実現し、下流タスクの単純さと効率性を強調している。
論文 参考訳(メタデータ) (2024-12-20T04:05:09Z) - Counterfactual Intervention Feature Transfer for Visible-Infrared Person
Re-identification [69.45543438974963]
視覚赤外人物再識別タスク(VI-ReID)におけるグラフベースの手法は,2つの問題により,悪い一般化に悩まされている。
十分に訓練された入力特徴は、グラフトポロジーの学習を弱め、推論過程において十分に一般化されない。
本稿では,これらの問題に対処するためのCIFT法を提案する。
論文 参考訳(メタデータ) (2022-08-01T16:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。