論文の概要: Progress measures for grokking via mechanistic interpretability
- arxiv url: http://arxiv.org/abs/2301.05217v3
- Date: Thu, 19 Oct 2023 21:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 13:36:08.826408
- Title: Progress measures for grokking via mechanistic interpretability
- Title(参考訳): 機械的解釈可能性によるグラッキングの進展対策
- Authors: Neel Nanda and Lawrence Chan and Tom Lieberum and Jess Smith and Jacob
Steinhardt
- Abstract要約: モジュール付加タスクを訓練した小型変圧器による「グルーキング」現象について検討した。
以上の結果から,グラッキングは突然のシフトではなく,重みに符号化された構造機構の段階的な増幅から生じることが示唆された。
- 参考スコア(独自算出の注目度): 27.35925102247588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks often exhibit emergent behavior, where qualitatively new
capabilities arise from scaling up the amount of parameters, training data, or
training steps. One approach to understanding emergence is to find continuous
\textit{progress measures} that underlie the seemingly discontinuous
qualitative changes. We argue that progress measures can be found via
mechanistic interpretability: reverse-engineering learned behaviors into their
individual components. As a case study, we investigate the recently-discovered
phenomenon of ``grokking'' exhibited by small transformers trained on modular
addition tasks. We fully reverse engineer the algorithm learned by these
networks, which uses discrete Fourier transforms and trigonometric identities
to convert addition to rotation about a circle. We confirm the algorithm by
analyzing the activations and weights and by performing ablations in Fourier
space. Based on this understanding, we define progress measures that allow us
to study the dynamics of training and split training into three continuous
phases: memorization, circuit formation, and cleanup. Our results show that
grokking, rather than being a sudden shift, arises from the gradual
amplification of structured mechanisms encoded in the weights, followed by the
later removal of memorizing components.
- Abstract(参考訳): ニューラルネットワークは、パラメータの量、トレーニングデータ、トレーニングステップのスケールアップから、定性的に新しい能力が生まれる、創発的な振る舞いを示すことが多い。
出現を理解する一つのアプローチは、一見不連続な質的変化を裏付ける連続的な \textit{progress measures} を見つけることである。
我々は、学習した振る舞いを個々のコンポーネントにリバースエンジニアリングすることで、メカニスティックな解釈可能性を通じて進捗測定を見出すことができると論じる。
そこで本研究では,モジュール付加タスクを訓練した小型変圧器による'grokking'現象について検討した。
離散フーリエ変換と三角比を用いて円周まわりの回転への付加を変換するアルゴリズムを,これらのネットワークで学習したアルゴリズムを完全にリバースエンジニアリングする。
本アルゴリズムは,アクティベーションと重みを解析し,フーリエ空間でアブレーションを行うことで検証する。
この理解に基づいて、トレーニングのダイナミクスを学習し、トレーニングを3つの連続フェーズ(記憶、回路形成、クリーンアップ)に分割するための進捗対策を定義する。
以上の結果から,突然のシフトではなく,重みに符号化された構造機構の段階的な増幅と,その後の記憶成分の除去が示唆された。
関連論文リスト
- Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Transformers for Supervised Online Continual Learning [11.270594318662233]
オンライン連続学習に変換器のコンテキスト内学習機能を活用する手法を提案する。
本手法は,画像位置定位のための大規模実世界ベンチマークであるCLOCにおいて,過去の最先端結果よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-03-03T16:12:20Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Unsupervised Learning of Invariance Transformations [105.54048699217668]
近似グラフ自己同型を見つけるためのアルゴリズムフレームワークを開発する。
重み付きグラフにおける近似自己同型を見つけるために、このフレームワークをどのように利用できるかについて議論する。
論文 参考訳(メタデータ) (2023-07-24T17:03:28Z) - Can Transformers Learn to Solve Problems Recursively? [9.5623664764386]
本稿では,プログラムと形式検証に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。
これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。
論文 参考訳(メタデータ) (2023-05-24T04:08:37Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Thalamus: a brain-inspired algorithm for biologically-plausible
continual learning and disentangled representations [0.0]
動物は絶えず変化する環境の中で成長し、時間構造を利用して因果表現を学ぶ。
本稿では,時間的文脈の内部表現を生成するために,推論時に最適化を利用する単純なアルゴリズムを提案する。
従来の重み付け更新を用いて一連のタスクをトレーニングしたネットワークが,タスクを動的に推論できることを示す。
次に、ウェイト更新と潜伏更新を交互に切り替えて、未ラベルのタスクストリーム内の非絡み合った表現を発見することができるタスク非依存のアルゴリズムであるTalamusに到達します。
論文 参考訳(メタデータ) (2022-05-24T01:29:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。