論文の概要: Efficient Automated Circuit Discovery in Transformers using Contextual Decomposition
- arxiv url: http://arxiv.org/abs/2407.00886v2
- Date: Fri, 11 Oct 2024 19:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:52.306260
- Title: Efficient Automated Circuit Discovery in Transformers using Contextual Decomposition
- Title(参考訳): 文脈分解を用いた変圧器の効率的な自動回路探索
- Authors: Aliyah R. Hsu, Georgia Zhou, Yeshwanth Cherapanamjeri, Yaxuan Huang, Anobel Y. Odisho, Peter R. Carroll, Bin Yu,
- Abstract要約: 大規模言語モデルで解釈可能な回路を構築するために,変換器 (CD-T) のコンテキスト分解を導入する。
CD-Tは任意のレベルの抽象化の回路を生成でき、アテンションヘッドと同じくらいきめ細かな回路を最初に生成できる。
CD-T回路は、全てのタスクのベースラインよりも少ないノードで、オリジナルのモデルの動作を完璧に再現できることを示す。
- 参考スコア(独自算出の注目度): 10.13822875330178
- License:
- Abstract: Automated mechanistic interpretation research has attracted great interest due to its potential to scale explanations of neural network internals to large models. Existing automated circuit discovery work relies on activation patching or its approximations to identify subgraphs in models for specific tasks (circuits). They often suffer from slow runtime, approximation errors, and specific requirements of metrics, such as non-zero gradients. In this work, we introduce contextual decomposition for transformers (CD-T) to build interpretable circuits in large language models. CD-T can produce circuits of arbitrary level of abstraction, and is the first able to produce circuits as fine-grained as attention heads at specific sequence positions efficiently. CD-T consists of a set of mathematical equations to isolate contribution of model features. Through recursively computing contribution of all nodes in a computational graph of a model using CD-T followed by pruning, we are able to reduce circuit discovery runtime from hours to seconds compared to state-of-the-art baselines. On three standard circuit evaluation datasets (indirect object identification, greater-than comparisons, and docstring completion), we demonstrate that CD-T outperforms ACDC and EAP by better recovering the manual circuits with an average of 97% ROC AUC under low runtimes. In addition, we provide evidence that faithfulness of CD-T circuits is not due to random chance by showing our circuits are 80% more faithful than random circuits of up to 60% of the original model size. Finally, we show CD-T circuits are able to perfectly replicate original models' behavior (faithfulness $ = 1$) using fewer nodes than the baselines for all tasks. Our results underscore the great promise of CD-T for efficient automated mechanistic interpretability, paving the way for new insights into the workings of large language models.
- Abstract(参考訳): 自動機械的解釈研究は、ニューラルネットワーク内部の説明を大規模モデルに拡張する可能性から、大きな関心を集めている。
既存の自動回路発見作業は、特定のタスク(回路)のモデルのサブグラフを特定するために、アクティベーションパッチやその近似に依存する。
実行時間の遅い、近似エラー、非ゼロ勾配のようなメトリクスの特定の要求に悩まされることが多い。
本研究では,大きな言語モデルで解釈可能な回路を構築するために,変換器(CD-T)の文脈分解を導入する。
CD-Tは任意のレベルの抽象化回路を生成でき、特定のシーケンス位置における注目ヘッドと同じくらい微細な回路を効率よく生成できる。
CD-Tはモデル特徴の寄与を分離する数式からなる。
CD-Tとプルーニングを用いたモデルの計算グラフにおける全てのノードのコントリビューションを再帰的に計算することで、最先端のベースラインと比較して、回路発見ランタイムを数時間から秒に短縮することができる。
3つの標準回路評価データセット(間接物体識別、より大きい比較、ドクストリング完了)において、CD-Tは、低ランタイム下で平均97%のOC AUCで手動回路を回復することにより、ACDCとEAPより優れていることを示した。
さらに,本研究では,CD-T回路の忠実度が,元のモデルサイズの最大60%のランダム回路よりも80%忠実であることを示すことによって,ランダムな確率によるものではないことを示す。
最後に、CD-T回路は全てのタスクのベースラインよりも少ないノードで元のモデルの動作を完璧に再現できることを示す。
結果から,CD-Tが自動機械的解釈を効率的に行うという大きな期待が浮き彫りになり,大規模言語モデルの動作に対する新たな洞察の道が開けた。
関連論文リスト
- Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Automatically Identifying Local and Global Circuits with Linear Computation Graphs [45.760716193942685]
Sparse Autoencoders (SAEs) と Transcoders と呼ばれる変種を用いた回路発見パイプラインを導入する。
本手法は各ノードの因果効果を計算するために線形近似を必要としない。
GPT-2 Small: Bracket, induction, Indirect Object Identification circuits の3種類の回路を解析する。
論文 参考訳(メタデータ) (2024-05-22T17:50:04Z) - CktGNN: Circuit Graph Neural Network for Electronic Design Automation [67.29634073660239]
本稿では,回路トポロジ生成とデバイスサイズを同時に行う回路グラフニューラルネットワーク(CktGNN)を提案する。
オープンサーキットベンチマーク(OCB: Open Circuit Benchmark)は、オープンソースのデータセットで、10ドル(約10万円)の異なるオペレーショナルアンプを含む。
我々の研究は、アナログ回路のための学習ベースのオープンソース設計自動化への道を開いた。
論文 参考訳(メタデータ) (2023-08-31T02:20:25Z) - FuNToM: Functional Modeling of RF Circuits Using a Neural Network
Assisted Two-Port Analysis Method [0.40598496563941905]
本稿では,RF回路の機能モデリング手法であるFuNToMを提案する。
FuNToMは、単一のメインデータセットと複数の小さなデータセットを使用して、複数のトポロジをモデル化するための2ポート解析手法を利用している。
その結果、複数のRF回路において、最先端技術と比較すると、必要なトレーニングデータを2.8倍から10.9倍削減できることがわかった。
論文 参考訳(メタデータ) (2023-08-03T21:08:16Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z) - Towards Automated Circuit Discovery for Mechanistic Interpretability [7.605075513099429]
本稿では,それに続く機械的解釈可能性プロセスの体系化について述べる。
調査中のデータセット、メトリック、ユニットを変えることで、研究者は各コンポーネントの機能を理解することができる。
本稿では,いくつかのアルゴリズムを提案し,それを検証するために過去の解釈可能性の結果を再現する。
論文 参考訳(メタデータ) (2023-04-28T17:36:53Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - On the realistic worst case analysis of quantum arithmetic circuits [69.43216268165402]
量子回路の設計における直観は誤解を招く可能性があることを示す。
また,T数を減らすことで,全深度を増大させることができることを示した。
リップルキャリーを用いた加算回路と乗算回路について述べる。
論文 参考訳(メタデータ) (2021-01-12T21:36:16Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。