論文の概要: Finding Transformer Circuits with Edge Pruning
- arxiv url: http://arxiv.org/abs/2406.16778v1
- Date: Mon, 24 Jun 2024 16:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 13:55:51.412592
- Title: Finding Transformer Circuits with Edge Pruning
- Title(参考訳): エッジプルーニングを用いた変圧器回路の探索
- Authors: Adithya Bhaskar, Alexander Wettig, Dan Friedman, Danqi Chen,
- Abstract要約: 自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
- 参考スコア(独自算出の注目度): 71.12127707678961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The path to interpreting a language model often proceeds via analysis of circuits -- sparse computational subgraphs of the model that capture specific aspects of its behavior. Recent work has automated the task of discovering circuits. Yet, these methods have practical limitations, as they rely either on inefficient search algorithms or inaccurate approximations. In this paper, we frame automated circuit discovery as an optimization problem and propose *Edge Pruning* as an effective and scalable solution. Edge Pruning leverages gradient-based pruning techniques, but instead of removing neurons or components, it prunes the \emph{edges} between components. Our method finds circuits in GPT-2 that use less than half the number of edges compared to circuits found by previous methods while being equally faithful to the full model predictions on standard circuit-finding tasks. Edge Pruning is efficient even with as many as 100K examples, outperforming previous methods in speed and producing substantially better circuits. It also perfectly recovers the ground-truth circuits in two models compiled with Tracr. Thanks to its efficiency, we scale Edge Pruning to CodeLlama-13B, a model over 100x the scale that prior methods operate on. We use this setting for a case study comparing the mechanisms behind instruction prompting and in-context learning. We find two circuits with more than 99.96% sparsity that match the performance of the full model and reveal that the mechanisms in the two settings overlap substantially. Our case study shows that Edge Pruning is a practical and scalable tool for interpretability and sheds light on behaviors that only emerge in large models.
- Abstract(参考訳): 言語モデルを解釈するパスは、しばしば回路の分析によって進行する。
最近の研究は回路発見のタスクを自動化した。
しかし、これらの手法は非効率な探索アルゴリズムや不正確な近似に依存するため、実用的な制限がある。
本稿では,最適化問題として自動回路発見の枠組みを定め,有効かつスケーラブルなソリューションとして *Edge Pruning* を提案する。
エッジプルーニングは勾配に基づくプルーニング技術を活用するが、ニューロンやコンポーネントを除去する代わりに、コンポーネント間で \emph{edges} をプルーニングする。
提案手法は,従来の手法に比べてエッジ数の半分以下であるGPT-2の回路を,標準回路ファイリングタスクの完全なモデル予測に等しく忠実に行う。
エッジプルーニングは、最大100Kの例でも効率的であり、従来の手法よりも高速で、はるかに優れた回路を生成する。
また、Tracrでコンパイルされた2つのモデルにおいて、地上構造回路を完全に復元する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
この設定は、命令プロンプトとコンテキスト内学習の背景にあるメカニズムを比較したケーススタディである。
99.96%以上の間隔を持つ2つの回路が完全なモデルの性能と一致し、2つの設定のメカニズムが大幅に重なることを明らかにした。
私たちのケーススタディでは、エッジプルーニングは解釈可能性のための実用的でスケーラブルなツールであり、大きなモデルにのみ現れる振る舞いに光を当てています。
関連論文リスト
- Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - CircuitVAE: Efficient and Scalable Latent Circuit Optimization [22.93567682576068]
CircuitVAEは連続空間に計算グラフを埋め込む検索アルゴリズムである。
我々のアルゴリズムはサンプリング効率が高いが、大きな問題インスタンスと高いサンプル予算に優雅にスケールする。
CircuitVAEは、実世界のチップで最先端の加算器を設計でき、我々の手法がリアルな環境で商用ツールより優れていることを示す。
論文 参考訳(メタデータ) (2024-06-13T18:47:52Z) - Robust shallow shadows [0.251657752676152]
浅層計測回路の幅広いクラスを対象としたロバストなシャドウ推定プロトコルを提案する。
テンソルネットワークツールを用いて実験データから直接推定する方法を示す。
提案手法は,現在および近時雑音量子デバイスの実用的制約の下で,大域回転による影推定の可能性の最大化を実現する。
論文 参考訳(メタデータ) (2024-05-09T18:00:09Z) - Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms [35.514624827207136]
エッジ属性パッチ(EAP: Edge Attribution patching)は、介入に対する勾配に基づく近似であり、この問題に対するスケーラブルだが不完全な解決策として現れている。
本稿では,回路のコア特性をよりよく維持することを目的とした,統合勾配付きEAP(EAP-IG)手法を提案する。
EAPを用いた回路はEAP-IGを用いた回路に比べて信頼性が低いことを示した。
論文 参考訳(メタデータ) (2024-03-26T15:44:58Z) - Attribution Patching Outperforms Automated Circuit Discovery [3.8695554579762814]
帰属パッチに基づく単純な手法が,既存の手法よりも優れていることを示す。
演算サブグラフにおける各エッジの重要性を推定するために、線形近似をアクティベーションパッチに適用する。
論文 参考訳(メタデータ) (2023-10-16T12:34:43Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - TransPath: Learning Heuristics For Grid-Based Pathfinding via
Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。
私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。
第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文 参考訳(メタデータ) (2022-12-22T14:26:11Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Hybrid Trilinear and Bilinear Programming for Aligning Partially
Overlapping Point Sets [85.71360365315128]
多くの応用において、部分重なり合う点集合が対応するRPMアルゴリズムに不変であるようなアルゴリズムが必要である。
まず、目的が立方体有界関数であることを示し、次に、三線型および双線型単相変換の凸エンベロープを用いて、その下界を導出する。
次に、変換変数上の分岐のみを効率よく実行するブランチ・アンド・バウンド(BnB)アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-01-19T04:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。