論文の概要: Discovering Transformer Circuits via a Hybrid Attribution and Pruning Framework
- arxiv url: http://arxiv.org/abs/2510.03282v1
- Date: Sun, 28 Sep 2025 18:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 19:16:49.462863
- Title: Discovering Transformer Circuits via a Hybrid Attribution and Pruning Framework
- Title(参考訳): ハイブリッド属性・プルーニング・フレームワークによる変圧器回路の発見
- Authors: Hao Gu, Vibhas Nair, Amrithaa Ashok Kumar, Jayvart Sharma, Ryan Lagasse,
- Abstract要約: 本研究は,属性パッチを用いて高電位部分グラフを同定するハイブリッド属性・プルーニングフレームワークを提案する。
回路忠実度を犠牲にすることなく,HAPはベースラインアルゴリズムよりも46%高速であることを示す。
- 参考スコア(独自算出の注目度): 4.336808542533343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpreting language models often involves circuit analysis, which aims to identify sparse subnetworks, or circuits, that accomplish specific tasks. Existing circuit discovery algorithms face a fundamental trade-off: attribution patching is fast but unfaithful to the full model, while edge pruning is faithful but computationally expensive. This research proposes a hybrid attribution and pruning (HAP) framework that uses attribution patching to identify a high-potential subgraph, then applies edge pruning to extract a faithful circuit from it. We show that HAP is 46\% faster than baseline algorithms without sacrificing circuit faithfulness. Furthermore, we present a case study on the Indirect Object Identification task, showing that our method preserves cooperative circuit components (e.g. S-inhibition heads) that attribution patching methods prune at high sparsity. Our results show that HAP could be an effective approach for improving the scalability of mechanistic interpretability research to larger models. Our code is available at https://anonymous.4open.science/r/HAP-circuit-discovery.
- Abstract(参考訳): 言語モデルの解釈には、特定のタスクを遂行するスパースサブネットワーク(サーキット)を特定することを目的としたサーキット分析が含まれることが多い。
既存の回路発見アルゴリズムは基本的なトレードオフに直面している。帰属パッチは高速だが完全なモデルには不信であり、エッジプルーニングは忠実だが計算コストが高い。
本研究では,属性パッチを用いて高電位サブグラフを同定し,エッジプルーニングを用いて忠実回路を抽出するハイブリッド属性・プルーニング(HAP)フレームワークを提案する。
その結果,HAPは回路忠実度を犠牲にすることなく,ベースラインアルゴリズムよりも46倍高速であることがわかった。
さらに, 間接物体識別タスクのケーススタディとして, 高頻度で発生する帰属パッチ手法による協調回路成分(例えばS阻害ヘッド)の保存について述べる。
以上の結果から,HAPは機械的解釈可能性研究のスケーラビリティ向上に有効な手法である可能性が示唆された。
私たちのコードはhttps://anonymous.4open.science/r/HAP-circuit-discoveryで公開されています。
関連論文リスト
- Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms [35.514624827207136]
エッジ属性パッチ(EAP: Edge Attribution patching)は、介入に対する勾配に基づく近似であり、この問題に対するスケーラブルだが不完全な解決策として現れている。
本稿では,回路のコア特性をよりよく維持することを目的とした,統合勾配付きEAP(EAP-IG)手法を提案する。
EAPを用いた回路はEAP-IGを用いた回路に比べて信頼性が低いことを示した。
論文 参考訳(メタデータ) (2024-03-26T15:44:58Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z) - DHP: Differentiable Meta Pruning via HyperNetworks [158.69345612783198]
本稿では,ネットワークの自動プルーニングのためのハイパーネットによる識別可能なプルーニング手法を提案する。
遅延ベクトルは、バックボーンネットワーク内の畳み込み層の出力チャネルを制御し、レイヤのプルーニングのハンドルとして機能する。
画像分類、単一画像超解像、復調のための様々なネットワークで実験が行われた。
論文 参考訳(メタデータ) (2020-03-30T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。