論文の概要: Uncovering Intermediate Variables in Transformers using Circuit Probing
- arxiv url: http://arxiv.org/abs/2311.04354v2
- Date: Fri, 17 Nov 2023 15:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 16:43:14.943138
- Title: Uncovering Intermediate Variables in Transformers using Circuit Probing
- Title(参考訳): 回路プローブを用いた変圧器の中間変数の解明
- Authors: Michael A. Lepori, Thomas Serre, Ellie Pavlick
- Abstract要約: 本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。
本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
- 参考スコア(独自算出の注目度): 32.382094867951224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network models have achieved high performance on a wide variety of
complex tasks, but the algorithms that they implement are notoriously difficult
to interpret. In order to understand these algorithms, it is often necessary to
hypothesize intermediate variables involved in the network's computation. For
example, does a language model depend on particular syntactic properties when
generating a sentence? However, existing analysis tools make it difficult to
test hypotheses of this type. We propose a new analysis technique -- circuit
probing -- that automatically uncovers low-level circuits that compute
hypothesized intermediate variables. This enables causal analysis through
targeted ablation at the level of model parameters. We apply this method to
models trained on simple arithmetic tasks, demonstrating its effectiveness at
(1) deciphering the algorithms that models have learned, (2) revealing modular
structure within a model, and (3) tracking the development of circuits over
training. We compare circuit probing to other methods across these three
experiments, and find it on par or more effective than existing analysis
methods. Finally, we demonstrate circuit probing on a real-world use case,
uncovering circuits that are responsible for subject-verb agreement and
reflexive anaphora in GPT2-Small and Medium.
- Abstract(参考訳): ニューラルネットワークモデルは、さまざまな複雑なタスクで高いパフォーマンスを達成しているが、それらが実装するアルゴリズムは、解釈が難しいことで悪名高い。
これらのアルゴリズムを理解するためには、ネットワークの計算に関わる中間変数を仮定する必要がある。
例えば、言語モデルは文を生成する際に特定の構文特性に依存しますか?
しかし,既存の解析ツールでは,このような仮説の検証が困難である。
我々は,仮説の中間変数を計算する低レベル回路を自動的に解明する新しい解析手法 -- 回路探索 -- を提案する。
これにより、モデルパラメータのレベルでのターゲットアブレーションによる因果解析が可能になる。
本手法を単純な算術タスクで学習したモデルに適用し,(1)モデルが学習したアルゴリズムの解法,(2)モデル内のモジュラー構造を明らかにすること,(3)トレーニングによる回路開発を追跡することの有効性を実証する。
これら3つの実験で回路探索法を他の手法と比較し,既存の解析法と同等かそれ以上の有効性を見いだした。
最後に,GPT2-SmallおよびMediumにおける主観的収束と反射性アナフォラの原因となる回路を明らかにする。
関連論文リスト
- Transformers are uninterpretable with myopic methods: a case study with
bounded Dyck grammars [36.780346257061495]
解釈可能性法は、訓練されたモデルによって実装されたアルゴリズムを理解することを目的としている。
私たちは、モデルの個々の部分にのみフォーカスするメソッドの批判的な見解を取ります。
論文 参考訳(メタデータ) (2023-12-03T15:34:46Z) - Interpreting Shared Circuits for Ordered Sequence Prediction in a Large
Language Model [2.44755919161855]
この研究は、トランスフォーマーモデルを回路と呼ばれる人間可読表現にリバースエンジニアリングすることを目的としている。
我々は、シーケンスメンバーの検出と、シーケンス内の次のメンバの予測に責任があるキーサブ回路を同定する。
解析の結果、意味的関連配列は類似した役割を持つ共有回路サブグラフに依存していることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T16:58:51Z) - Tractable Bounding of Counterfactual Queries by Knowledge Compilation [51.47174989680976]
本稿では, パール構造因果モデルにおいて, 因果関係などの部分的特定可能なクエリのバウンダリングの問題について議論する。
最近提案された反復EMスキームは初期化パラメータをサンプリングしてそれらの境界を内部近似する。
シンボルパラメータを実際の値に置き換えた回路構造を,単一のシンボル知識コンパイルによって得られることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:10:40Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Redefining Neural Architecture Search of Heterogeneous Multi-Network
Models by Characterizing Variation Operators and Model Components [71.03032589756434]
複素領域における異なる変動演算子の効果について検討する。
モデルの複雑さと性能に影響を及ぼす変化演算子と、それを構成する異なる部分の質を推定する様々な指標に依存するモデルの両方を特徴付ける。
論文 参考訳(メタデータ) (2021-06-16T17:12:26Z) - Machine Learning to Tackle the Challenges of Transient and Soft Errors
in Complex Circuits [0.16311150636417257]
機械学習モデルは、回路インスタンスの完全なリストに対して、インスタンスごとの正確な関数デレートデータを予測するために使用される。
提案手法を実例に適用し,各種機械学習モデルの評価と比較を行った。
論文 参考訳(メタデータ) (2020-02-18T18:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。