論文の概要: Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning
- arxiv url: http://arxiv.org/abs/2407.03779v1
- Date: Thu, 4 Jul 2024 09:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:42:12.528946
- Title: Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning
- Title(参考訳): 野生における機能的忠実性:微分計算グラフプルーニングによる回路発見
- Authors: Lei Yu, Jingcheng Niu, Zining Zhu, Gerald Penn,
- Abstract要約: 本稿では、DiscoGPとともにCircuit Discoveryと呼ばれるタスクを包括的に再構築する。
DiscoGPは、回路発見のための識別可能なマスキングに基づく、新しく効果的なアルゴリズムである。
- 参考スコア(独自算出の注目度): 14.639036250438517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a comprehensive reformulation of the task known as Circuit Discovery, along with DiscoGP, a novel and effective algorithm based on differentiable masking for discovering circuits. Circuit discovery is the task of interpreting the computational mechanisms of language models (LMs) by dissecting their functions and capabilities into sparse subnetworks (circuits). We identified two major limitations in existing circuit discovery efforts: (1) a dichotomy between weight-based and connection-edge-based approaches forces researchers to choose between pruning connections or weights, thereby limiting the scope of mechanistic interpretation of LMs; (2) algorithms based on activation patching tend to identify circuits that are neither functionally faithful nor complete. The performance of these identified circuits is substantially reduced, often resulting in near-random performance in isolation. Furthermore, the complement of the circuit -- i.e., the original LM with the identified circuit removed -- still retains adequate performance, indicating that essential components of a complete circuits are missed by existing methods. DiscoGP successfully addresses the two aforementioned issues and demonstrates state-of-the-art faithfulness, completeness, and sparsity. The effectiveness of the algorithm and its novel structure open up new avenues of gathering new insights into the internal workings of generative AI.
- Abstract(参考訳): 本稿では,回路発見のための識別可能なマスキングに基づく新規かつ効果的なアルゴリズムであるDiscoGPとともに,サーキットディスカバリ(Circuit Discovery)と呼ばれるタスクを包括的に再構成する手法を提案する。
サーキットディスカバリ(英: circuit discovery)は、言語モデル(LM)の計算機構を、その機能と機能をスパースサブネットワーク(サーキット)に分割することで解釈するタスクである。
既往の回路発見の取り組みにおいて,(1)重みに基づくアプローチと接続エッジに基づくアプローチの二分法により,研究者は刈り込み接続と重みを選択でき,それによってLMの機械的解釈の範囲を制限し,(2)アクティベーションパッチに基づくアルゴリズムは,機能的に忠実でも完全でもない回路を識別する傾向にある。
これらの特定回路の性能は大幅に低下し、しばしば孤立してほぼランダムな性能をもたらす。
さらに、回路の補体、すなわち、同定された回路を除去した元のLMは、依然として十分な性能を維持しており、完全な回路の必須成分が既存の方法によって欠落していることを示している。
DiscoGPは上記の2つの問題に対処し、最先端の忠実さ、完全性、疎さを実証する。
アルゴリズムの有効性とその新しい構造は、生成AIの内部動作に関する新たな洞察を集める新たな道を開く。
関連論文リスト
- Adaptive Circuit Behavior and Generalization in Mechanistic Interpretability [3.138731415322007]
GPT-2小領域における間接物体識別(IOI)回路の汎用性について検討する。
その結果、回路は驚くほどよく一般化し、全ての部品と機構を再利用し、入力エッジを追加するだけでよいことがわかった。
論文 参考訳(メタデータ) (2024-11-25T05:32:34Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - CIRCUITSYNTH: Leveraging Large Language Models for Circuit Topology Synthesis [7.131266114437393]
有効な回路トポロジの自動合成を容易にするためにLCMを利用する新しい手法であるCIRCUITSYNTHを導入する。
提案手法は,回路効率の向上と出力電圧の特定を目的とした今後の研究の基盤となる。
論文 参考訳(メタデータ) (2024-06-06T01:59:59Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Attribution Patching Outperforms Automated Circuit Discovery [3.8695554579762814]
帰属パッチに基づく単純な手法が,既存の手法よりも優れていることを示す。
演算サブグラフにおける各エッジの重要性を推定するために、線形近似をアクティベーションパッチに適用する。
論文 参考訳(メタデータ) (2023-10-16T12:34:43Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Quantum circuit debugging and sensitivity analysis via local inversions [62.997667081978825]
本稿では,回路に最も影響を及ぼす量子回路の断面をピンポイントする手法を提案する。
我々は,IBM量子マシン上に実装されたアルゴリズム回路の例に応用して,提案手法の実用性と有効性を示す。
論文 参考訳(メタデータ) (2022-04-12T19:39:31Z) - Learning algorithms from circuit lower bounds [0.0]
構成回路下界の様々な概念から効率的な学習アルゴリズムの既知の構成を再考する。
難しい問題を解こうとする多くのpサイズの回路の誤りを、特定のインタラクティブな方法で効率的に見つけることができれば、pサイズの回路は一様分布を通じてPACを学ぶことができることを証明します。
論文 参考訳(メタデータ) (2020-12-28T04:47:36Z) - Investigating the Scalability and Biological Plausibility of the
Activation Relaxation Algorithm [62.997667081978825]
アクティベーション・リラクシエーション(AR)アルゴリズムは、誤りアルゴリズムのバックプロパゲーションを近似するためのシンプルでロバストなアプローチを提供する。
このアルゴリズムは、学習可能な後方重みセットを導入することにより、さらに単純化され、生物学的に検証可能であることを示す。
また、元のARアルゴリズム(凍結フィードフォワードパス)の別の生物学的に信じられない仮定が、パフォーマンスを損なうことなく緩和できるかどうかについても検討する。
論文 参考訳(メタデータ) (2020-10-13T08:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。