論文の概要: Prune, Interpret, Evaluate: A Cross-Layer Transcoder-Native Framework for Efficient Circuit Discovery via Feature Attribution
- arxiv url: http://arxiv.org/abs/2604.16889v1
- Date: Sat, 18 Apr 2026 07:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.219873
- Title: Prune, Interpret, Evaluate: A Cross-Layer Transcoder-Native Framework for Efficient Circuit Discovery via Feature Attribution
- Title(参考訳): Prune, Interpret, Evaluate: 複数層トランスコーダ-Native Framework for Efficient Circuit Discovery through Feature Attribution
- Authors: Qinhao Chen, Linyang He, Nima Mesgarani,
- Abstract要約: 我々は,最初のCLTネイティブなエンドツーエンドフレームワークであるPIEを導入し,Pruning,Automatic Interpretation,そして解釈評価を行った。
FAPファミリーは、50ドル、100ドル、200ドル、400ドル、800ドル、FAP、FAP-Synergy、Activation-Magnitude、ACDCスタイルのプルーニングで、常に最高または最良に近いフィリティを達成している。
- 参考スコア(独自算出の注目度): 15.06459852205302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing feature-interpretation pipelines typically operate on uniformly sampled units, but only a small fraction of cross-layer transcoder (CLT) features matter for a target behavior, with the rest resulting in expensive feature explaining and evaluating costs. We introduce the first CLT-native end-to-end framework, PIE, connecting Pruning, automatic Interpretation, and interpretation Evaluation, enabling systematic measurement of behavioral fidelity and downstream interpretability under pruning. To achieve this, we propose Feature Attribution Patching (FAP), a patch-grounded attribution method that scores CLT features by aggregating gradient-weighted write contributions, and FAP-Synergy, a synergy-aware reranking procedure. We evaluate pruning using KL-divergence behavior retention and assess interpretation quality with FADE-style metrics. Across IOI and Doc-String, across budgets $K \in \{50, 100, 200, 400, 800\}$, and across FAP, FAP-Synergy, Activation-Magnitude, and ACDC-style pruning, the FAP family consistently achieves the best or near-best fidelity, with FAP-Synergy providing its clearest gains in strict-budget regimes. On IOI with CLTs for Llama-3.2-1B and Gemma-2-2B, pruning to $K=100$ features matches the KL fidelity that random selection from the active feature set requires $\approx 4$k features to achieve ($\approx 40\times$ compression), enabling $\approx 40\times$ fewer interpretation/evaluation calls while substantially reducing low-quality features.
- Abstract(参考訳): 既存の機能解釈パイプラインは、一様にサンプリングされたユニットで運用されるのが一般的であるが、少数のクロス層トランスコーダ(CLT)のみがターゲットの振る舞いに重要であり、残りの部分は高価な機能説明とコスト評価をもたらす。
我々は,最初のCLTネイティブなエンドツーエンドフレームワークであるPIEを導入し,プルーニングの接続,自動解釈,解釈評価を行い,プルーニング時の動作の忠実度と下流の解釈可能性の体系的な測定を可能にした。
これを実現するために、勾配重み付けされた書き込みコントリビューションを集約してCLT特徴を評価するパッチグラウンドの属性パッシング(FAP)と、シナジー対応のリグレード手順であるFAP-Synergyを提案する。
我々は,KL分割行動保持を用いたプルーニングの評価を行い,FADEスタイルのメトリクスを用いて解釈品質を評価する。
IOIとDoc-String、予算$K \in \{50, 100, 200, 400, 800\}$、FAP、FAP-Synergy、Activation-Magnitude、ACDCスタイルのプルーニングをまたいで、FAPファミリーは、厳格な予算制におけるFAP-Synergyの最大の利益を一貫して達成している。
Llama-3.2-1B と Gemma-2-2B の CLT を持つ IOI では、アクティブな機能セットからランダムに選択する($\approx 40\times$ 圧縮)という KL の忠実度にマッチし、$\approx 40\times$ 低品質の機能を大幅に削減しながら、$$\approx 40\times$ 解釈/評価コールを減らした。
関連論文リスト
- Bridging Theory and Practice in Crafting Robust Spiking Reservoirs [0.0]
スパイキング貯水池コンピューティングは、時間的処理に対するエネルギー効率のよいアプローチを提供するが、確実に貯水池を調整してカオスの端で作動させることは困難である。
この研究は、ロバストネス間隔を導入して活用することによって、臨界性と実践的安定性の抽象概念を橋渡しする。
論文 参考訳(メタデータ) (2026-04-07T19:29:21Z) - Adaptive Threshold-Driven Continuous Greedy Method for Scalable Submodular Optimization [0.0]
マットロイド制約の下でのサブモジュールは、センシング、データマージ、アクティブラーニング、リソース割り当てなどの応用において、最適化の基本的な問題である。
textitATCG(underlineAdaptive underlineThresholded underlineThresholded underlineThresholded underlineGreedy)を提案する。
CIFAR-10動物データセットを用いたクラスバランス型プロトタイプ選択問題の実験
論文 参考訳(メタデータ) (2026-04-03T19:32:39Z) - Robustness, Cost, and Attack-Surface Concentration in Phishing Detection [0.0]
設計されたウェブサイト上に構築されたフィッシング検出器は、i.d.評価の下でほぼ完璧な精度で機能する。
我々はこのギャップを、明示的な攻撃予算の下で個別の単調な特徴編集をモデル化するコスト認識回避フレームワークを通じて研究する。
論文 参考訳(メタデータ) (2026-03-19T17:53:32Z) - Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - Learning Accurate Segmentation Purely from Self-Supervision [87.78965637247107]
Selfmentは完全に自己管理型のフレームワークで、人間のラベルなしでオブジェクトを生画像から直接分割する。
Selfmentは、複数のベンチマークで新しい最先端(SoTA)結果を設定する。
論文 参考訳(メタデータ) (2026-02-27T07:36:32Z) - $κ$-Explorer: A Unified Framework for Active Model Estimation in MDPs [20.944349513772067]
固有推定複雑性と訪問頻度を明示的に組み込んだ目的関数のパラメタ化ファミリを$U_$で導入する。
本稿では,Frank-Wolfe方式の探索アルゴリズムである$-Explorerを提案する。
MDPのベンチマーク実験では、$$-Explorerが既存の探索戦略よりも優れたパフォーマンスを提供することが示された。
論文 参考訳(メタデータ) (2026-02-23T22:56:32Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - The Alignment Bottleneck [0.0]
ループを2段階のカスケード$U to H to Y$ given$S$、認知能力$C_textcog|S$、平均総容量$barC_texttot|S$としてモデル化する。
これは、分離可能なコードブックと、KL項が$m, barC_texttot|S$で同じチャネルで制御されるPAC-Bayes上界とで証明されたデータサイズ非依存のファノ下界をペアする。
論文 参考訳(メタデータ) (2025-09-19T12:38:30Z) - EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。