論文の概要: Learning Modular Exponentiation with Transformers
- arxiv url: http://arxiv.org/abs/2506.23679v1
- Date: Mon, 30 Jun 2025 10:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.007357
- Title: Learning Modular Exponentiation with Transformers
- Title(参考訳): 変圧器を用いたモジュール指数学習
- Authors: David Demitri Africa, Sara M. Kapoor, Theo Simon Sorg,
- Abstract要約: 4層エンコーダ・デコーダ・トランスモデルをトレーニングし、モジュラー指数化を行う。
相互学習は高い性能向上をもたらし、関連するモジュラーを突如に一般化する。
これらの結果から,変圧器モデルは特殊計算回路を用いてモジュラー演算を学習することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modular exponentiation is crucial to number theory and cryptography, yet remains largely unexplored from a mechanistic interpretability standpoint. We train a 4-layer encoder-decoder Transformer model to perform this operation and investigate the emergence of numerical reasoning during training. Utilizing principled sampling strategies, PCA-based embedding analysis, and activation patching, we examine how number-theoretic properties are encoded within the model. We find that reciprocal operand training leads to strong performance gains, with sudden generalization across related moduli. These synchronized accuracy surges reflect grokking-like dynamics, suggesting the model internalizes shared arithmetic structure. We also find a subgraph consisting entirely of attention heads in the final layer sufficient to achieve full performance on the task of regular exponentiation. These results suggest that transformer models learn modular arithmetic through specialized computational circuits, paving the way for more interpretable and efficient neural approaches to modular exponentiation.
- Abstract(参考訳): モジュラー指数は数論や暗号にとって重要であるが、機械的解釈可能性の観点からはほとんど解明されていない。
我々は,4層エンコーダ・デコーダ変換器モデルを訓練し,この操作を行い,訓練中の数値推論の出現について検討する。
そこで本研究では,PCAをベースとしたサンプリング手法,組込み解析,アクティベーションパッチの適用により,モデル内の数理論特性がどのように符号化されているかを検討する。
相互オペランドトレーニングは、関連するモジュラーを突如に一般化することにより、高いパフォーマンス向上をもたらすことが判明した。
これらの同期精度の急上昇は、グラッキングのような力学を反映し、モデルが共有算術構造を内部化することを示唆している。
また,最終層における注意点の全てからなる部分グラフが,正規指数のタスクにおける完全な性能を達成するのに十分であることを示す。
これらの結果から,トランスフォーマーモデルは特殊な計算回路を通じてモジュラー算術を学習し,より解釈可能で効率的なニューラルアプローチによるモジュラー指数化の道を開くことが示唆された。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Principled Understanding of Generalization for Generative Transformer Models in Arithmetic Reasoning Tasks [5.522116934552708]
トランスフォーマーベースのモデルは様々なタスクにおいて優れているが、その一般化能力、特に算術的推論では、まだ完全には理解されていない。
本稿では,算術課題における変圧器の一般化動作を理解するための統一的理論枠組みを開発する。
論文 参考訳(メタデータ) (2024-07-25T11:35:22Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Towards Empirical Interpretation of Internal Circuits and Properties in Grokked Transformers on Modular Polynomials [29.09237503747052]
モジュラー加算のグロキングは、変換器の三角形状のフーリエ表現とその計算回路を実装することが知られている。
各操作でグラクされたモデル間の転送性は、特定の組み合わせに限られることを示す。
マルチタスクの混合によってコグルーキングが発生し、すべてのタスクで同時にグルーキングが発生する。
論文 参考訳(メタデータ) (2024-02-26T16:48:12Z) - Understanding Addition in Transformers [2.07180164747172]
本稿では,n桁整数加算を行うために訓練された1層トランスフォーマーモデルの包括的解析を行う。
提案手法は,各桁を対象とする並列ストリームに分割し,各桁の異なる位置に合わせて最適化されたアルゴリズムを用いることを示唆している。
論文 参考訳(メタデータ) (2023-10-19T19:34:42Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。