論文の概要: Discovering Transformer Circuits via a Hybrid Attribution and Pruning Framework
- arxiv url: http://arxiv.org/abs/2510.03282v1
- Date: Sun, 28 Sep 2025 18:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 19:16:49.462863
- Title: Discovering Transformer Circuits via a Hybrid Attribution and Pruning Framework
- Title(参考訳): ハイブリッド属性・プルーニング・フレームワークによる変圧器回路の発見
- Authors: Hao Gu, Vibhas Nair, Amrithaa Ashok Kumar, Jayvart Sharma, Ryan Lagasse,
- Abstract要約: 本研究は,属性パッチを用いて高電位部分グラフを同定するハイブリッド属性・プルーニングフレームワークを提案する。
回路忠実度を犠牲にすることなく,HAPはベースラインアルゴリズムよりも46%高速であることを示す。
- 参考スコア(独自算出の注目度): 4.336808542533343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpreting language models often involves circuit analysis, which aims to identify sparse subnetworks, or circuits, that accomplish specific tasks. Existing circuit discovery algorithms face a fundamental trade-off: attribution patching is fast but unfaithful to the full model, while edge pruning is faithful but computationally expensive. This research proposes a hybrid attribution and pruning (HAP) framework that uses attribution patching to identify a high-potential subgraph, then applies edge pruning to extract a faithful circuit from it. We show that HAP is 46\% faster than baseline algorithms without sacrificing circuit faithfulness. Furthermore, we present a case study on the Indirect Object Identification task, showing that our method preserves cooperative circuit components (e.g. S-inhibition heads) that attribution patching methods prune at high sparsity. Our results show that HAP could be an effective approach for improving the scalability of mechanistic interpretability research to larger models. Our code is available at https://anonymous.4open.science/r/HAP-circuit-discovery.
- Abstract(参考訳): 言語モデルの解釈には、特定のタスクを遂行するスパースサブネットワーク(サーキット)を特定することを目的としたサーキット分析が含まれることが多い。
既存の回路発見アルゴリズムは基本的なトレードオフに直面している。帰属パッチは高速だが完全なモデルには不信であり、エッジプルーニングは忠実だが計算コストが高い。
本研究では,属性パッチを用いて高電位サブグラフを同定し,エッジプルーニングを用いて忠実回路を抽出するハイブリッド属性・プルーニング(HAP)フレームワークを提案する。
その結果,HAPは回路忠実度を犠牲にすることなく,ベースラインアルゴリズムよりも46倍高速であることがわかった。
さらに, 間接物体識別タスクのケーススタディとして, 高頻度で発生する帰属パッチ手法による協調回路成分(例えばS阻害ヘッド)の保存について述べる。
以上の結果から,HAPは機械的解釈可能性研究のスケーラビリティ向上に有効な手法である可能性が示唆された。
私たちのコードはhttps://anonymous.4open.science/r/HAP-circuit-discoveryで公開されています。
関連論文リスト
- Certified Circuits: Stability Guarantees for Mechanistic Circuits [80.30622018787835]
Certified Circuitsは、回路発見のための証明可能な安定性を保証する。
ImageNetとOODデータセットでは、認定回路は91%高い精度を達成する。
論文 参考訳(メタデータ) (2026-02-26T13:07:31Z) - PAHQ: Accelerating Automated Circuit Discovery through Mixed-Precision Inference Optimization [17.316927027489506]
サーキットディスカバリー(ACDC)は、サーキットディスカバリーにおける重要な方法論として登場した。
しかし、その大規模言語モデルへの適用は、計算の非効率さと極めて高いメモリ要求によって著しく制限されている。
提案手法は,各パッチ処理の効率を最適化し,本手法を根本的に異なるアプローチで提案する。
論文 参考訳(メタデータ) (2025-10-27T12:24:14Z) - Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms [35.514624827207136]
エッジ属性パッチ(EAP: Edge Attribution patching)は、介入に対する勾配に基づく近似であり、この問題に対するスケーラブルだが不完全な解決策として現れている。
本稿では,回路のコア特性をよりよく維持することを目的とした,統合勾配付きEAP(EAP-IG)手法を提案する。
EAPを用いた回路はEAP-IGを用いた回路に比べて信頼性が低いことを示した。
論文 参考訳(メタデータ) (2024-03-26T15:44:58Z) - Attribution Patching Outperforms Automated Circuit Discovery [3.8695554579762814]
帰属パッチに基づく単純な手法が,既存の手法よりも優れていることを示す。
演算サブグラフにおける各エッジの重要性を推定するために、線形近似をアクティベーションパッチに適用する。
論文 参考訳(メタデータ) (2023-10-16T12:34:43Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - DHP: Differentiable Meta Pruning via HyperNetworks [158.69345612783198]
本稿では,ネットワークの自動プルーニングのためのハイパーネットによる識別可能なプルーニング手法を提案する。
遅延ベクトルは、バックボーンネットワーク内の畳み込み層の出力チャネルを制御し、レイヤのプルーニングのハンドルとして機能する。
画像分類、単一画像超解像、復調のための様々なネットワークで実験が行われた。
論文 参考訳(メタデータ) (2020-03-30T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。