論文の概要: Interpreting Grokked Transformers in Complex Modular Arithmetic
- arxiv url: http://arxiv.org/abs/2402.16726v2
- Date: Tue, 27 Feb 2024 04:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:59:43.172144
- Title: Interpreting Grokked Transformers in Complex Modular Arithmetic
- Title(参考訳): 複素モジュラー算術におけるグロッケ変換器の解釈
- Authors: Hiroki Furuta, Gouki Minegishi, Yusuke Iwasawa, Yutaka Matsuo
- Abstract要約: 解析可能なリバースエンジニアリングにより複雑なモジュラー算術で学習した内部回路を観察する。
実験分析では,様々な組み合わせの総合評価の重要性を強調した。
- 参考スコア(独自算出の注目度): 31.78132974646383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking has been actively explored to reveal the mystery of delayed
generalization. Identifying interpretable algorithms inside the grokked models
is a suggestive hint to understanding its mechanism. In this work, beyond the
simplest and well-studied modular addition, we observe the internal circuits
learned through grokking in complex modular arithmetic via interpretable
reverse engineering, which highlights the significant difference in their
dynamics: subtraction poses a strong asymmetry on Transformer; multiplication
requires cosine-biased components at all the frequencies in a Fourier domain;
polynomials often result in the superposition of the patterns from elementary
arithmetic, but clear patterns do not emerge in challenging cases; grokking can
easily occur even in higher-degree formulas with basic symmetric and
alternating expressions. We also introduce the novel progress measure for
modular arithmetic; Fourier Frequency Sparsity and Fourier Coefficient Ratio,
which not only indicate the late generalization but also characterize
distinctive internal representations of grokked models per modular operation.
Our empirical analysis emphasizes the importance of holistic evaluation among
various combinations.
- Abstract(参考訳): グローキングは遅れた一般化の謎を明らかにするために活発に研究されている。
グラクテッドモデル内で解釈可能なアルゴリズムを識別することは、そのメカニズムを理解するための示唆的なヒントである。
In this work, beyond the simplest and well-studied modular addition, we observe the internal circuits learned through grokking in complex modular arithmetic via interpretable reverse engineering, which highlights the significant difference in their dynamics: subtraction poses a strong asymmetry on Transformer; multiplication requires cosine-biased components at all the frequencies in a Fourier domain; polynomials often result in the superposition of the patterns from elementary arithmetic, but clear patterns do not emerge in challenging cases; grokking can easily occur even in higher-degree formulas with basic symmetric and alternating expressions.
また, モジュラー演算のための新しい進行測度, フーリエ周波数スパーシティとフーリエ係数比を導入し, 遅延一般化を示すだけでなく, グルークモデルの特異な内部表現をモジュラー演算毎に特徴付ける。
実験分析では,様々な組み合わせの総合評価の重要性を強調した。
関連論文リスト
- A Hybrid System for Systematic Generalization in Simple Arithmetic
Problems [70.91780996370326]
本稿では,記号列に対する合成的および体系的推論を必要とする算術的問題を解くことができるハイブリッドシステムを提案する。
提案システムは,最も単純なケースを含むサブセットでのみ訓練された場合においても,ネストした数式を正確に解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-29T18:35:41Z) - A Symbolic Framework for Systematic Evaluation of Mathematical Reasoning
with Transformers [14.76726115772225]
我々は、複雑な数学的導出を生成するためのデータ生成法を考案し、構文、構造、意味論に関してそれらを体系的に摂動する。
次に、次の方程式予測に関する一般的な実験フレームワークをインスタンス化し、体系的な数学的推論とトランスフォーマーエンコーダの一般化を合計200Kの例で評価する。
実験の結果、摂動がパフォーマンスに大きく影響し、F1スコアが97%$から17%$以下に減少することが明らかとなり、推論は数学的作用素の深い理解とは無関係な表面レベルのパターンに支配されていることが示唆された。
論文 参考訳(メタデータ) (2023-05-21T20:40:37Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Linear Self-Attention Approximation via Trainable Feedforward Kernel [77.34726150561087]
高速な計算を追求する中で、効率的なトランスフォーマーは印象的な様々なアプローチを実証している。
我々は,トランスフォーマーアーキテクチャの自己保持機構を近似するために,トレーニング可能なカーネルメソッドのアイデアを拡張することを目指している。
論文 参考訳(メタデータ) (2022-11-08T08:14:11Z) - Inductive Biases and Variable Creation in Self-Attention Mechanisms [25.79946667926312]
この研究は自己アテンション加群の帰納バイアスの理論解析を提供する。
私たちの焦点は、どの関数と長距離依存関係を表現したいかを明確に決めることです。
我々の主な結果は、有界ノルムトランスフォーマー層がスパース変数を生成することを示している。
論文 参考訳(メタデータ) (2021-10-19T16:36:19Z) - Learning Algebraic Recombination for Compositional Generalization [71.78771157219428]
合成一般化のための代数的組換え学習のためのエンドツーエンドニューラルモデルLeARを提案する。
主要な洞察は、意味解析タスクを潜在構文代数学と意味代数学の間の準同型としてモデル化することである。
2つの現実的・包括的構成一般化の実験は、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2021-07-14T07:23:46Z) - A Compositional Atlas of Tractable Circuit Operations: From Simple
Transformations to Complex Information-Theoretic Queries [44.36335714431731]
本稿では,回路上のモジュラー操作において,機械学習の複雑な推論シナリオがいかに表現できるかを示す。
文献におけるいくつかの結果を一般化し,新たな抽出可能な推論シナリオを開放する,抽出可能なモデルについて推論するための統一的な枠組みを導出する。
論文 参考訳(メタデータ) (2021-02-11T17:26:32Z) - A Deep Joint Sparse Non-negative Matrix Factorization Framework for
Identifying the Common and Subject-specific Functional Units of Tongue Motion
During Speech [7.870139900799612]
音声中の舌運動の共通および主観的機能単位を特定するための新しいディープラーニングフレームワークを開発した。
スパースとグラフ正規化によるNMFを、ディープニューラルネットワークに似たモジュラーアーキテクチャに変換する。
論文 参考訳(メタデータ) (2020-07-09T15:05:44Z) - Total Deep Variation: A Stable Regularizer for Inverse Problems [71.90933869570914]
本稿では,データ駆動型汎用全深度変動正規化器について紹介する。
コアでは、畳み込みニューラルネットワークが複数のスケールや連続したブロックで局所的な特徴を抽出する。
我々は多数の画像処理タスクに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-15T21:54:15Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z) - Generalizing Convolutional Neural Networks for Equivariance to Lie
Groups on Arbitrary Continuous Data [52.78581260260455]
任意の特定のリー群からの変換に同値な畳み込み層を構築するための一般的な方法を提案する。
同じモデルアーキテクチャを画像、ボール・アンド・スティック分子データ、ハミルトン力学系に適用する。
論文 参考訳(メタデータ) (2020-02-25T17:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。