論文の概要: Adaptive Circuit Behavior and Generalization in Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2411.16105v1
- Date: Mon, 25 Nov 2024 05:32:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:45.558421
- Title: Adaptive Circuit Behavior and Generalization in Mechanistic Interpretability
- Title(参考訳): 機械的解釈可能性における適応回路挙動と一般化
- Authors: Jatin Nainani, Sankaran Vaidyanathan, AJ Yeung, Kartik Gupta, David Jensen,
- Abstract要約: GPT-2小領域における間接物体識別(IOI)回路の汎用性について検討する。
その結果、回路は驚くほどよく一般化し、全ての部品と機構を再利用し、入力エッジを追加するだけでよいことがわかった。
- 参考スコア(独自算出の注目度): 3.138731415322007
- License:
- Abstract: Mechanistic interpretability aims to understand the inner workings of large neural networks by identifying circuits, or minimal subgraphs within the model that implement algorithms responsible for performing specific tasks. These circuits are typically discovered and analyzed using a narrowly defined prompt format. However, given the abilities of large language models (LLMs) to generalize across various prompt formats for the same task, it remains unclear how well these circuits generalize. For instance, it is unclear whether the models generalization results from reusing the same circuit components, the components behaving differently, or the use of entirely different components. In this paper, we investigate the generality of the indirect object identification (IOI) circuit in GPT-2 small, which is well-studied and believed to implement a simple, interpretable algorithm. We evaluate its performance on prompt variants that challenge the assumptions of this algorithm. Our findings reveal that the circuit generalizes surprisingly well, reusing all of its components and mechanisms while only adding additional input edges. Notably, the circuit generalizes even to prompt variants where the original algorithm should fail; we discover a mechanism that explains this which we term S2 Hacking. Our findings indicate that circuits within LLMs may be more flexible and general than previously recognized, underscoring the importance of studying circuit generalization to better understand the broader capabilities of these models.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、特定のタスクを実行するアルゴリズムを実装するモデル内の回路や最小限のサブグラフを特定することによって、大きなニューラルネットワークの内部動作を理解することを目的としている。
これらの回路は典型的には狭義のプロンプト形式を用いて発見・解析される。
しかし、大きな言語モデル(LLM)が同じタスクに対して様々なプロンプトフォーマットをまたいで一般化できることを考えると、これらの回路がどの程度一般化されているかは定かではない。
例えば、モデル一般化が、同じ回路コンポーネントの再利用、異なる動作のコンポーネント、または全く異なるコンポーネントの使用に起因するかどうかは不明である。
本稿では,GPT-2小域における間接物体識別(IOI)回路の汎用性について検討する。
本アルゴリズムの仮定に挑戦するプロンプト変種に対して,その性能を評価する。
その結果、回路は驚くほどよく一般化し、全ての部品と機構を再利用し、入力エッジを追加するだけでよいことがわかった。
特に、回路は元のアルゴリズムが失敗すべき変種をプロンプトするために一般化され、我々はこれをS2ハックと呼ぶメカニズムを発見した。
以上の結果から,LLM内の回路は従来よりも柔軟で汎用性が高い可能性が示唆され,これらのモデルのより広範な機能を理解するために,回路一般化の研究の重要性が強調された。
関連論文リスト
- Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models [22.89563355840371]
言語モデル内で10個のモジュール型文字列編集処理を行う回路を同定・比較する。
以上の結果から,機能的に類似した回路は,ノード重なりとクロスタスク忠実度の両方を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T11:36:45Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning [14.639036250438517]
本稿では、DiscoGPとともにCircuit Discoveryと呼ばれるタスクを包括的に再構築する。
DiscoGPは、回路発見のための識別可能なマスキングに基づく、新しく効果的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-07-04T09:42:25Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Uncovering Intermediate Variables in Transformers using Circuit Probing [32.382094867951224]
本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。
本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
論文 参考訳(メタデータ) (2023-11-07T21:27:17Z) - Circuit Component Reuse Across Tasks in Transformer Language Models [32.2976613483151]
我々は、洞察がタスクをまたいで実際に一般化できる証拠を示す。
両タスクの根底にあるプロセスは機能的に非常によく似ており、回路内注目ヘッドの約78%が重なり合っていることを示す。
この結果から,大規模言語モデルの動作を,比較的少数の解釈可能なタスク一般のアルゴリズム構築ブロックや計算部品で説明できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:12:28Z) - A Circuit Domain Generalization Framework for Efficient Logic Synthesis
in Chip Design [92.63517027087933]
論理合成(LS)の重要な課題は、回路を等価な機能を持つ単純化回路に変換することである。
この課題に対処するため、多くのLS演算子は、入力DAG上の各ノードに根付いたサブグラフに逐次変換を適用する。
本稿では,データ駆動型LS演算子のパラダイムであるPruneXを提案する。
論文 参考訳(メタデータ) (2023-08-22T16:18:48Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。