論文の概要: Automated Circuit Interpretation via Probe Prompting
- arxiv url: http://arxiv.org/abs/2511.07002v1
- Date: Mon, 10 Nov 2025 11:53:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.222221
- Title: Automated Circuit Interpretation via Probe Prompting
- Title(参考訳): プローブプロンプティングによる自動回路解釈
- Authors: Giuseppe Birardi,
- Abstract要約: 本稿では、帰属グラフをコンパクトで解釈可能な部分グラフに変換する自動パイプラインであるプローブプロンプトを提案する。
5つのプロンプトにまたがって、プローブプロンプトされたサブグラフは、複雑さを圧縮しながら高い説明的カバレッジを保っている。
幾何学的クラスタリングベースラインと比較すると、概念整列群はより高い行動コヒーレンスを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability aims to understand neural networks by identifying which learned features mediate specific behaviors. Attribution graphs reveal these feature pathways, but interpreting them requires extensive manual analysis -- a single prompt can take approximately 2 hours for an experienced circuit tracer. We present probe prompting, an automated pipeline that transforms attribution graphs into compact, interpretable subgraphs built from concept-aligned supernodes. Starting from a seed prompt and target logit, we select high-influence features, generate concept-targeted yet context-varying probes, and group features by cross-prompt activation signatures into Semantic, Relationship, and Say-X categories using transparent decision rules. Across five prompts including classic "capitals" circuits, probe-prompted subgraphs preserve high explanatory coverage while compressing complexity (Completeness 0.83, mean across circuits; Replacement 0.54). Compared to geometric clustering baselines, concept-aligned groups exhibit higher behavioral coherence: 2.3x higher peak-token consistency (0.425 vs 0.183) and 5.8x higher activation-pattern similarity (0.762 vs 0.130), despite lower geometric compactness. Entity-swap tests reveal a layerwise hierarchy: early-layer features transfer robustly (64% transfer rate, mean layer 6.3), while late-layer Say-X features specialize for output promotion (mean layer 16.4), supporting a backbone-and-specialization view of transformer computation. We release code (https://github.com/peppinob-ol/attribution-graph-probing), an interactive demo (https://huggingface.co/spaces/Peppinob/attribution-graph-probing), and minimal artifacts enabling immediate reproduction and community adoption.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、学習した特徴が特定の振る舞いを仲介するかどうかを識別することで、ニューラルネットワークを理解することを目的としている。
属性グラフはこれらの特徴経路を明らかにするが、それらを解釈するには広範な手動解析が必要である。
本稿では、帰属グラフを概念整列スーパーノードから構築されたコンパクトで解釈可能なサブグラフに変換する自動パイプラインであるプローブプロンプトを提案する。
シードプロンプトとターゲットロジットから、高い影響のある特徴を選択し、概念をターゲットとした状況変化プローブを生成し、透明な決定ルールを用いてセマンティック、リレーション、セイXカテゴリへのクロスプロンプトアクティベーションシグネチャをグループ化する。
古典的な「資本」回路を含む5つのプロンプトを含む5つのプロンプトは、複雑性を圧縮しながら高い説明的カバレッジを維持している(完全性0.83、回路横断性0.54、置換性0.54)。
幾何学的クラスタリングベースラインと比較して、概念整列群はより高い行動コヒーレンスを示す:2.3倍のピーク-トケン一貫性(0.425 vs 0.183)と5.8倍のアクティベーション-パターン類似性(0.762 vs 0.130)。
エンティティ・スワップ・テストは階層的に階層構造を示す: アーリー・レイヤの機能は堅牢に転送される(64%の転送レート、平均層6.3)、一方レイト・レイヤのSay-Xは出力促進に特化した機能(平均層16.4)、トランスフォーマー計算のバックボーン・アンド・スペシャライズ・ビューをサポートする。
コード(https://github.com/peppinob-ol/attribution-graph-probing)、インタラクティブなデモ(https://huggingface.co/spaces/Peppinob/attribution-graph-probing)、最小限のアーティファクトをリリースし、すぐに複製とコミュニティの採用を可能にします。
関連論文リスト
- Cluster Paths: Navigating Interpretability in Neural Networks [3.914630846200639]
本稿では,選択した層でアクティベーションをクラスタ化し,各入力をクラスタIDのシーケンスとして表現するポストホック解釈可能性手法を提案する。
複数のネットワーク深度でカラーパレット、テクスチャ、オブジェクトコンテキストなどの視覚概念をクラスタパスで明らかにすることを示す。
論文 参考訳(メタデータ) (2025-10-08T00:41:09Z) - Federated Spatiotemporal Graph Learning for Passive Attack Detection in Smart Grids [2.721477719641864]
本稿では,時間的ウィンドウ上で物理層と行動指標を融合させて受動的攻撃を検出するグラフ中心型マルチモーダル検出器を提案する。
テスト精度は98.32%、シーケンス毎の93.35%を0.15% FPRで達成している。
論文 参考訳(メタデータ) (2025-09-29T08:52:30Z) - CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。
実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文 参考訳(メタデータ) (2024-12-20T17:57:09Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - HyperZ$\cdot$Z$\cdot$W Operator Connects Slow-Fast Networks for Full
Context Interaction [0.0]
自己注意機構は、ドット製品ベースのアクティベーションを通じてプログラムされた大きな暗黙の重み行列を利用して、訓練可能なパラメータがほとんどないため、長いシーケンスモデリングを可能にする。
本稿では,ネットワークの各層におけるコンテキストの完全な相互作用を実現するために,大きな暗黙のカーネルを用いて残差学習を破棄する可能性について検討する。
このモデルにはいくつかの革新的なコンポーネントが組み込まれており、遅いネットワークを更新するための局所的なフィードバックエラー、安定なゼロ平均機能、より高速なトレーニング収束、より少ないモデルパラメータなど、優れた特性を示している。
論文 参考訳(メタデータ) (2024-01-31T15:57:21Z) - SimMatchV2: Semi-Supervised Learning with Graph Consistency [53.31681712576555]
半教師付き学習アルゴリズムSimMatchV2を導入する。
グラフの観点からラベル付きデータとラベルなしデータの間の様々な一貫性の規則化を定式化する。
SimMatchV2は、複数の半教師付き学習ベンチマークで検証されている。
論文 参考訳(メタデータ) (2023-08-13T05:56:36Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - DyG2Vec: Efficient Representation Learning for Dynamic Graphs [26.792732615703372]
時間グラフニューラルネットワークは、時間パターンを自動的に抽出することで、帰納的表現の学習において有望な結果を示している。
時間的エッジエンコーディングとウィンドウベースのサブグラフサンプリングを利用してタスクに依存しない埋め込みを生成する。
論文 参考訳(メタデータ) (2022-10-30T18:13:04Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - Regularized Densely-connected Pyramid Network for Salient Instance
Segmentation [73.17802158095813]
我々は、エンドツーエンドの有能なインスタンスセグメンテーション(SIS)のための新しいパイプラインを提案する。
ディープネットワークにおけるリッチな特徴階層をよりよく活用するために、正規化された高密度接続を提案する。
マスク予測を改善するために,新しいマルチレベルRoIAlignベースのデコーダを導入し,多レベル特徴を適応的に集約する。
論文 参考訳(メタデータ) (2020-08-28T00:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。