Fugu-MT 論文翻訳(概要): Uncovering Intermediate Variables in Transformers using Circuit Probing

論文の概要: Uncovering Intermediate Variables in Transformers using Circuit Probing

arxiv url: http://arxiv.org/abs/2311.04354v2
Date: Fri, 17 Nov 2023 15:15:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 16:43:14.943138
Title: Uncovering Intermediate Variables in Transformers using Circuit Probing
Title（参考訳）: 回路プローブを用いた変圧器の中間変数の解明
Authors: Michael A. Lepori, Thomas Serre, Ellie Pavlick
Abstract要約: 本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
参考スコア（独自算出の注目度）: 32.382094867951224
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural network models have achieved high performance on a wide variety of complex tasks, but the algorithms that they implement are notoriously difficult to interpret. In order to understand these algorithms, it is often necessary to hypothesize intermediate variables involved in the network's computation. For example, does a language model depend on particular syntactic properties when generating a sentence? However, existing analysis tools make it difficult to test hypotheses of this type. We propose a new analysis technique -- circuit probing -- that automatically uncovers low-level circuits that compute hypothesized intermediate variables. This enables causal analysis through targeted ablation at the level of model parameters. We apply this method to models trained on simple arithmetic tasks, demonstrating its effectiveness at (1) deciphering the algorithms that models have learned, (2) revealing modular structure within a model, and (3) tracking the development of circuits over training. We compare circuit probing to other methods across these three experiments, and find it on par or more effective than existing analysis methods. Finally, we demonstrate circuit probing on a real-world use case, uncovering circuits that are responsible for subject-verb agreement and reflexive anaphora in GPT2-Small and Medium.
Abstract（参考訳）: ニューラルネットワークモデルは、さまざまな複雑なタスクで高いパフォーマンスを達成しているが、それらが実装するアルゴリズムは、解釈が難しいことで悪名高い。これらのアルゴリズムを理解するためには、ネットワークの計算に関わる中間変数を仮定する必要がある。例えば、言語モデルは文を生成する際に特定の構文特性に依存しますか? しかし,既存の解析ツールでは,このような仮説の検証が困難である。我々は,仮説の中間変数を計算する低レベル回路を自動的に解明する新しい解析手法 -- 回路探索 -- を提案する。これにより、モデルパラメータのレベルでのターゲットアブレーションによる因果解析が可能になる。本手法を単純な算術タスクで学習したモデルに適用し,(1)モデルが学習したアルゴリズムの解法,(2)モデル内のモジュラー構造を明らかにすること,(3)トレーニングによる回路開発を追跡することの有効性を実証する。これら3つの実験で回路探索法を他の手法と比較し,既存の解析法と同等かそれ以上の有効性を見いだした。最後に,GPT2-SmallおよびMediumにおける主観的収束と反射性アナフォラの原因となる回路を明らかにする。

関連論文リスト

Hierarchical Sparse Circuit Extraction from Billion-Parameter Language Models through Scalable Attribution Graph Decomposition [0.0]
我々は,O(2n)からO(n2 log n)への排他的列挙から回路発見の複雑さを低減する枠組みを提案する。本手法は,モノセマンティック特徴抽出のための層間トランスコーダ,トポロジ予測のためのグラフニューラルネットワークメタラーニング,検証のための因果介入プロトコルを統合する。モジュラー演算のタスクでは、このフレームワークは解釈可能なサブグラフサイズを維持しながら、最大91%の動作保存(pm$2.3%)を達成する。
論文参考訳（メタデータ） (2026-01-19T09:34:10Z)
Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。残る技術的課題や倫理的考察も分析する。
論文参考訳（メタデータ） (2025-06-05T05:42:27Z)
Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models [22.89563355840371]
言語モデル内の高構成サブタスクの回路解析により,ニューラルネットワークのモジュラリティについて検討する。以上の結果から,機能的に類似した回路は,ノード重なりとクロスタスク忠実度の両方を示すことが明らかとなった。
論文参考訳（メタデータ） (2024-10-02T11:36:45Z)
Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文参考訳（メタデータ） (2024-07-11T17:59:00Z)
Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文参考訳（メタデータ） (2024-05-10T17:11:31Z)
Transformers are uninterpretable with myopic methods: a case study with bounded Dyck grammars [36.780346257061495]
解釈可能性法は、訓練されたモデルによって実装されたアルゴリズムを理解することを目的としている。私たちは、モデルの個々の部分にのみフォーカスするメソッドの批判的な見解を取ります。
論文参考訳（メタデータ） (2023-12-03T15:34:46Z)
Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models [9.56229382432426]
本研究の目的は、トランスフォーマーモデルをアルゴリズム機能を実装する人間可読表現にリバースエンジニアリングすることである。 GPT-2 SmallとLlama-2-7Bの両方のキーサブ回路を回路解釈可能性解析により同定する。このサブ回路は、インターバル回路、スペイン語の数字と月数継続、自然言語の単語問題など、様々な数学的なプロンプトに影響を及ぼすことを示す。
論文参考訳（メタデータ） (2023-11-07T16:58:51Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Structured Radial Basis Function Network: Modelling Diversity for Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文参考訳（メタデータ） (2023-09-02T01:27:53Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
Transformers as Algorithms: Generalization and Implicit Model Selection in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文参考訳（メタデータ） (2023-01-17T18:31:12Z)
Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文参考訳（メタデータ） (2022-10-06T00:33:01Z)
Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文参考訳（メタデータ） (2022-05-25T17:37:08Z)
Redefining Neural Architecture Search of Heterogeneous Multi-Network Models by Characterizing Variation Operators and Model Components [71.03032589756434]
複素領域における異なる変動演算子の効果について検討する。モデルの複雑さと性能に影響を及ぼす変化演算子と、それを構成する異なる部分の質を推定する様々な指標に依存するモデルの両方を特徴付ける。
論文参考訳（メタデータ） (2021-06-16T17:12:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。