論文の概要: Transformer Circuit Faithfulness Metrics are not Robust
- arxiv url: http://arxiv.org/abs/2407.08734v1
- Date: Thu, 11 Jul 2024 17:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:09:12.599851
- Title: Transformer Circuit Faithfulness Metrics are not Robust
- Title(参考訳): Transformer Circuit Faithfulness Metrics is Robust
- Authors: Joseph Miller, Bilal Chughtai, William Saunders,
- Abstract要約: 回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
- 参考スコア(独自算出の注目度): 0.04260910081285213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mechanistic interpretability work attempts to reverse engineer the learned algorithms present inside neural networks. One focus of this work has been to discover 'circuits' -- subgraphs of the full model that explain behaviour on specific tasks. But how do we measure the performance of such circuits? Prior work has attempted to measure circuit 'faithfulness' -- the degree to which the circuit replicates the performance of the full model. In this work, we survey many considerations for designing experiments that measure circuit faithfulness by ablating portions of the model's computation. Concerningly, we find existing methods are highly sensitive to seemingly insignificant changes in the ablation methodology. We conclude that existing circuit faithfulness scores reflect both the methodological choices of researchers as well as the actual components of the circuit - the task a circuit is required to perform depends on the ablation used to test it. The ultimate goal of mechanistic interpretability work is to understand neural networks, so we emphasize the need for more clarity in the precise claims being made about circuits. We open source a library at https://github.com/UFO-101/auto-circuit that includes highly efficient implementations of a wide range of ablation methodologies and circuit discovery algorithms.
- Abstract(参考訳): 機械論的解釈可能性の研究は、ニューラルネットワーク内に存在する学習アルゴリズムをリバースエンジニアリングしようとする。
この研究の焦点は、特定のタスクの振る舞いを説明するフルモデルのサブグラフである「サーキット」を見つけることである。しかし、そのようなサーキットのパフォーマンスをどのように測定するか?以前の研究では、サーキットがフルモデルのパフォーマンスを再現する度合いである「フェイントフルネス」を計測しようとした。
そこで本研究では,回路の忠実度を設計する上で,モデルの計算の一部を損なうことにより,回路の忠実度を計測する実験について検討する。
また,既存手法はアブレーション法における顕著な変化に非常に敏感であることが示唆された。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映している。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
我々は、幅広いアブレーション手法と回路発見アルゴリズムの高効率実装を含む、https://github.com/UFO-101/auto-circuitでライブラリをオープンソース化した。
関連論文リスト
- Adversarial Circuit Evaluation [1.1893676124374688]
文献中の3つの回路(IOI, Great-than, docstring)を対角的に評価した。
我々は,全モデルの出力と回路の出力とのKLのばらつきを測定し,再サンプリングアブレーションによって計算し,最悪の性能の入力を解析する。
論文 参考訳(メタデータ) (2024-07-21T13:43:44Z) - Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning [14.639036250438517]
本稿では、DiscoGPとともにCircuit Discoveryと呼ばれるタスクを包括的に再構築する。
DiscoGPは、回路発見のための識別可能なマスキングに基づく、新しく効果的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-07-04T09:42:25Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Uncovering Intermediate Variables in Transformers using Circuit Probing [32.382094867951224]
本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。
本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
論文 参考訳(メタデータ) (2023-11-07T21:27:17Z) - Attribution Patching Outperforms Automated Circuit Discovery [3.8695554579762814]
帰属パッチに基づく単純な手法が,既存の手法よりも優れていることを示す。
演算サブグラフにおける各エッジの重要性を推定するために、線形近似をアクティベーションパッチに適用する。
論文 参考訳(メタデータ) (2023-10-16T12:34:43Z) - CktGNN: Circuit Graph Neural Network for Electronic Design Automation [67.29634073660239]
本稿では,回路トポロジ生成とデバイスサイズを同時に行う回路グラフニューラルネットワーク(CktGNN)を提案する。
オープンサーキットベンチマーク(OCB: Open Circuit Benchmark)は、オープンソースのデータセットで、10ドル(約10万円)の異なるオペレーショナルアンプを含む。
我々の研究は、アナログ回路のための学習ベースのオープンソース設計自動化への道を開いた。
論文 参考訳(メタデータ) (2023-08-31T02:20:25Z) - Learning to Design Analog Circuits to Meet Threshold Specifications [2.5818330243826924]
本稿では,シミュレーションデータから,しきい値仕様を満たす回路の設計を訓練可能なデータセットを生成する手法を提案する。
提案手法は,5%の誤差マージンで90%以上の成功率を達成するとともに,データ効率を1桁以上の精度で向上することを示す。
論文 参考訳(メタデータ) (2023-07-25T23:25:05Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z) - Quantum circuit debugging and sensitivity analysis via local inversions [62.997667081978825]
本稿では,回路に最も影響を及ぼす量子回路の断面をピンポイントする手法を提案する。
我々は,IBM量子マシン上に実装されたアルゴリズム回路の例に応用して,提案手法の実用性と有効性を示す。
論文 参考訳(メタデータ) (2022-04-12T19:39:31Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。