Fugu-MT 論文翻訳(概要): Progress measures for grokking via mechanistic interpretability

論文の概要: Progress measures for grokking via mechanistic interpretability

arxiv url: http://arxiv.org/abs/2301.05217v1
Date: Thu, 12 Jan 2023 18:56:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 13:51:18.623303
Title: Progress measures for grokking via mechanistic interpretability
Title（参考訳）: 機械的解釈可能性によるグラッキングの進展対策
Authors: Neel Nanda and Lawrence Chan and Tom Liberum and Jess Smith and Jacob Steinhardt
Abstract要約: モジュール付加タスクを訓練した小型変圧器による「グルーキング」現象について検討した。以上の結果から,グラッキングは突然のシフトではなく,重みに符号化された構造機構の段階的な増幅から生じることが示唆された。
参考スコア（独自算出の注目度）: 9.865280471280364
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural networks often exhibit emergent behavior, where qualitatively new capabilities arise from scaling up the amount of parameters, training data, or training steps. One approach to understanding emergence is to find continuous \textit{progress measures} that underlie the seemingly discontinuous qualitative changes. We argue that progress measures can be found via mechanistic interpretability: reverse-engineering learned behaviors into their individual components. As a case study, we investigate the recently-discovered phenomenon of ``grokking'' exhibited by small transformers trained on modular addition tasks. We fully reverse engineer the algorithm learned by these networks, which uses discrete Fourier transforms and trigonometric identities to convert addition to rotation about a circle. We confirm the algorithm by analyzing the activations and weights and by performing ablations in Fourier space. Based on this understanding, we define progress measures that allow us to study the dynamics of training and split training into three continuous phases: memorization, circuit formation, and cleanup. Our results show that grokking, rather than being a sudden shift, arises from the gradual amplification of structured mechanisms encoded in the weights, followed by the later removal of memorizing components.
Abstract（参考訳）: ニューラルネットワークは、パラメータの量、トレーニングデータ、トレーニングステップのスケールアップから、定性的に新しい能力が生まれる、創発的な振る舞いを示すことが多い。出現を理解する一つのアプローチは、一見不連続な質的変化を裏付ける連続的な \textit{progress measures} を見つけることである。我々は、学習した振る舞いを個々のコンポーネントにリバースエンジニアリングすることで、メカニスティックな解釈可能性を通じて進捗測定を見出すことができると論じる。そこで本研究では,モジュール付加タスクを訓練した小型変圧器による'grokking'現象について検討した。離散フーリエ変換と三角比を用いて円周まわりの回転への付加を変換するアルゴリズムを,これらのネットワークで学習したアルゴリズムを完全にリバースエンジニアリングする。本アルゴリズムは,アクティベーションと重みを解析し,フーリエ空間でアブレーションを行うことで検証する。この理解に基づいて、トレーニングのダイナミクスを学習し、トレーニングを3つの連続フェーズ(記憶、回路形成、クリーンアップ)に分割するための進捗対策を定義する。以上の結果から,突然のシフトではなく,重みに符号化された構造機構の段階的な増幅と,その後の記憶成分の除去が示唆された。

関連論文リスト

On the Mechanism and Dynamics of Modular Addition: Fourier Features, Lottery Ticket, and Grokking [49.1352577985191]
本稿では,2層ニューラルネットワークがモジュール追加タスクを解くために,機能をどのように学習するかを包括的に分析する。我々の研究は、学習したモデルの完全な機械論的解釈と、その訓練力学の理論的説明を提供する。
論文参考訳（メタデータ） (2026-02-18T20:25:13Z)
Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文参考訳（メタデータ） (2025-07-28T00:09:28Z)
Circuit-tuning: A Mechanistic Approach for Identifying Parameter Redundancy and Fine-tuning Neural Networks [8.583130802344447]
本研究では,微調整のための解釈可能な手法を開発し,学習の背景にあるメカニズムを明らかにする。まず,本質的な次元の拡張としてノード冗長性の概念を提案し,新しい視点から回路発見の背後にある概念を説明する。この理論に基づいて、回路探索を反復的に行う2段階のアルゴリズムであるサーキットチューニングを提案し、無関係なエッジをマスクアウトし、特定のタスクに責任を負う残りのパラメータを更新する。
論文参考訳（メタデータ） (2025-02-10T02:35:53Z)
Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文参考訳（メタデータ） (2024-10-12T17:50:58Z)
Transformers for Supervised Online Continual Learning [11.270594318662233]
オンライン連続学習に変換器のコンテキスト内学習機能を活用する手法を提案する。本手法は,画像位置定位のための大規模実世界ベンチマークであるCLOCにおいて,過去の最先端結果よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-03-03T16:12:20Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文参考訳（メタデータ） (2023-09-11T22:42:50Z)
Unsupervised Learning of Invariance Transformations [105.54048699217668]
近似グラフ自己同型を見つけるためのアルゴリズムフレームワークを開発する。重み付きグラフにおける近似自己同型を見つけるために、このフレームワークをどのように利用できるかについて議論する。
論文参考訳（メタデータ） (2023-07-24T17:03:28Z)
Can Transformers Learn to Solve Problems Recursively? [9.5623664764386]
本稿では,プログラムと形式検証に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。
論文参考訳（メタデータ） (2023-05-24T04:08:37Z)
How Do Transformers Learn Topic Structure: Towards a Mechanistic Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文参考訳（メタデータ） (2023-03-07T21:42:17Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文参考訳（メタデータ） (2022-06-09T06:30:17Z)
Thalamus: a brain-inspired algorithm for biologically-plausible continual learning and disentangled representations [0.0]
動物は絶えず変化する環境の中で成長し、時間構造を利用して因果表現を学ぶ。本稿では,時間的文脈の内部表現を生成するために,推論時に最適化を利用する単純なアルゴリズムを提案する。従来の重み付け更新を用いて一連のタスクをトレーニングしたネットワークが,タスクを動的に推論できることを示す。次に、ウェイト更新と潜伏更新を交互に切り替えて、未ラベルのタスクストリーム内の非絡み合った表現を発見することができるタスク非依存のアルゴリズムであるTalamusに到達します。
論文参考訳（メタデータ） (2022-05-24T01:29:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。