論文の概要: EAP-GP: Mitigating Saturation Effect in Gradient-based Automated Circuit Identification
- arxiv url: http://arxiv.org/abs/2502.06852v1
- Date: Fri, 07 Feb 2025 16:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:09:37.461862
- Title: EAP-GP: Mitigating Saturation Effect in Gradient-based Automated Circuit Identification
- Title(参考訳): EAP-GP:勾配に基づく自動回路同定における飽和効果の緩和
- Authors: Lin Zhang, Wenshuo Dong, Zhuoran Zhang, Shu Yang, Lijie Hu, Ninghao Liu, Pan Zhou, Di Wang,
- Abstract要約: 飽和効果に対応するために,GradPath (EAP-GP) を用いたエッジパッチを提案する。
EAP-GPは、入力から始まり、飽和領域を避けるために、破損した入力とクリーン入力の勾配の違いの方向を適応的に追従する積分経路を導入する。
GPT-2 Small, GPT-2 Medium, GPT-2 XL を用いた6つのデータセットの EAP-GP の評価を行った。
- 参考スコア(独自算出の注目度): 62.611812892924156
- License:
- Abstract: Understanding the internal mechanisms of transformer-based language models remains challenging. Mechanistic interpretability based on circuit discovery aims to reverse engineer neural networks by analyzing their internal processes at the level of computational subgraphs. In this paper, we revisit existing gradient-based circuit identification methods and find that their performance is either affected by the zero-gradient problem or saturation effects, where edge attribution scores become insensitive to input changes, resulting in noisy and unreliable attribution evaluations for circuit components. To address the saturation effect, we propose Edge Attribution Patching with GradPath (EAP-GP), EAP-GP introduces an integration path, starting from the input and adaptively following the direction of the difference between the gradients of corrupted and clean inputs to avoid the saturated region. This approach enhances attribution reliability and improves the faithfulness of circuit identification. We evaluate EAP-GP on 6 datasets using GPT-2 Small, GPT-2 Medium, and GPT-2 XL. Experimental results demonstrate that EAP-GP outperforms existing methods in circuit faithfulness, achieving improvements up to 17.7%. Comparisons with manually annotated ground-truth circuits demonstrate that EAP-GP achieves precision and recall comparable to or better than previous approaches, highlighting its effectiveness in identifying accurate circuits.
- Abstract(参考訳): トランスフォーマーに基づく言語モデルの内部メカニズムを理解することは依然として困難である。
回路探索に基づく機械論的解釈可能性は、計算サブグラフのレベルで内部プロセスを分析することによって、ニューラルネットワークをリバースエンジニアリングすることを目的としている。
本稿では,既存の勾配に基づく回路同定手法を再検討し,その性能が0次問題や飽和効果に影響されているか,エッジ属性スコアが入力変化に敏感になった場合,回路コンポーネントに対するノイズや信頼性の低い属性評価を行う。
飽和効果に対処するために、EAP-GPは、入力から始まり、劣化した入力とクリーンな入力の勾配の方向を適応的に追従して飽和領域を避ける積分経路を導入する。
このアプローチは帰属信頼性を高め、回路識別の忠実度を向上させる。
GPT-2 Small, GPT-2 Medium, GPT-2 XL を用いた6つのデータセットの EAP-GP の評価を行った。
実験の結果、EAP-GPは回路忠実度において既存の手法よりも優れており、最大17.7%の改善が達成されている。
手動でアノテートした地絡回路と比較すると、EAP-GPは従来の手法に匹敵する精度とリコールを実現し、精度の高い回路の同定の有効性を強調している。
関連論文リスト
- Using the Path of Least Resistance to Explain Deep Networks [5.614094161229764]
Integrated Gradients (IG) は、広く使われている公理経路に基づく属性法である。
直進経路が原因で属性に欠陥があることが示されます。
代替として測地統合勾配(GIG)を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:29:24Z) - FGP: Feature-Gradient-Prune for Efficient Convolutional Layer Pruning [16.91552023598741]
本稿では,FGP (Feature-Gradient Pruning) と呼ばれる新しいプルーニング手法を提案する。
特徴に基づく情報と勾配に基づく情報を統合し、様々なターゲットクラスにおけるチャネルの重要性をより効果的に評価する。
複数のタスクやデータセットにまたがる実験により、FGPは計算コストを大幅に削減し、精度損失を最小化することが示された。
論文 参考訳(メタデータ) (2024-11-19T08:42:15Z) - Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning [14.639036250438517]
本稿では、DiscoGPとともにCircuit Discoveryと呼ばれるタスクを包括的に再構築する。
DiscoGPは、回路発見のための識別可能なマスキングに基づく、新しく効果的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-07-04T09:42:25Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Anchoring Path for Inductive Relation Prediction in Knowledge Graphs [69.81600732388182]
APSTはAPとCPを統一されたSentence Transformerアーキテクチャの入力として扱う。
我々は3つの公開データセット上でAPSTを評価し、36のトランスダクティブ、インダクティブ、および数ショットの実験的設定のうち30の最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2023-12-21T06:02:25Z) - A Kronecker product accelerated efficient sparse Gaussian Process
(E-SGP) for flow emulation [2.563626165548781]
本稿では,流体力学の代理モデリングのための効率的なスパースガウス法(E-SGP)を提案する。
これは、効率的なGP(E-GP)と変動エネルギーのないガウス過程(VEF-SGP)の概念を組み合わせた近似スパースGPアルゴリズムのさらなる発展である。
論文 参考訳(メタデータ) (2023-12-13T11:29:40Z) - Interactive Segmentation as Gaussian Process Classification [58.44673380545409]
クリックベースのインタラクティブセグメンテーション(IS)は、ユーザインタラクション下で対象オブジェクトを抽出することを目的としている。
現在のディープラーニング(DL)ベースの手法のほとんどは、主にセマンティックセグメンテーションの一般的なパイプラインに従っている。
本稿では,各画像上でガウス過程(GP)に基づく画素単位のバイナリ分類モデルとしてISタスクを定式化することを提案する。
論文 参考訳(メタデータ) (2023-02-28T14:01:01Z) - Incremental Ensemble Gaussian Processes [53.3291389385672]
本稿では,EGPメタラーナーがGP学習者のインクリメンタルアンサンブル(IE-) GPフレームワークを提案し,それぞれが所定のカーネル辞書に属するユニークなカーネルを持つ。
各GP専門家は、ランダムな特徴ベースの近似を利用してオンライン予測とモデル更新を行い、そのスケーラビリティを生かし、EGPメタラーナーはデータ適応重みを生かし、熟練者ごとの予測を合成する。
新たなIE-GPは、EGPメタラーナーおよび各GP学習者内における構造化力学をモデル化することにより、時間変化関数に対応するように一般化される。
論文 参考訳(メタデータ) (2021-10-13T15:11:25Z) - Scaling Equilibrium Propagation to Deep ConvNets by Drastically Reducing
its Gradient Estimator Bias [65.13042449121411]
実際には、EPによって提供される勾配推定によるネットワークのトレーニングは、MNISTよりも難しい視覚タスクにスケールしない。
有限ヌード法に固有のEPの勾配推定のバイアスがこの現象の原因であることを示す。
これらの手法を適用し、非対称な前方および後方接続を持つアーキテクチャをトレーニングし、13.2%のテストエラーを発生させる。
論文 参考訳(メタデータ) (2020-06-06T09:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。