Fugu-MT 論文翻訳(概要): Learning Modular Exponentiation with Transformers

論文の概要: Learning Modular Exponentiation with Transformers

arxiv url: http://arxiv.org/abs/2506.23679v1
Date: Mon, 30 Jun 2025 10:00:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:54.007357
Title: Learning Modular Exponentiation with Transformers
Title（参考訳）: 変圧器を用いたモジュール指数学習
Authors: David Demitri Africa, Sara M. Kapoor, Theo Simon Sorg,
Abstract要約: 4層エンコーダ・デコーダ・トランスモデルをトレーニングし、モジュラー指数化を行う。相互学習は高い性能向上をもたらし、関連するモジュラーを突如に一般化する。これらの結果から,変圧器モデルは特殊計算回路を用いてモジュラー演算を学習することが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modular exponentiation is crucial to number theory and cryptography, yet remains largely unexplored from a mechanistic interpretability standpoint. We train a 4-layer encoder-decoder Transformer model to perform this operation and investigate the emergence of numerical reasoning during training. Utilizing principled sampling strategies, PCA-based embedding analysis, and activation patching, we examine how number-theoretic properties are encoded within the model. We find that reciprocal operand training leads to strong performance gains, with sudden generalization across related moduli. These synchronized accuracy surges reflect grokking-like dynamics, suggesting the model internalizes shared arithmetic structure. We also find a subgraph consisting entirely of attention heads in the final layer sufficient to achieve full performance on the task of regular exponentiation. These results suggest that transformer models learn modular arithmetic through specialized computational circuits, paving the way for more interpretable and efficient neural approaches to modular exponentiation.
Abstract（参考訳）: モジュラー指数は数論や暗号にとって重要であるが、機械的解釈可能性の観点からはほとんど解明されていない。我々は,4層エンコーダ・デコーダ変換器モデルを訓練し,この操作を行い,訓練中の数値推論の出現について検討する。そこで本研究では,PCAをベースとしたサンプリング手法,組込み解析,アクティベーションパッチの適用により,モデル内の数理論特性がどのように符号化されているかを検討する。相互オペランドトレーニングは、関連するモジュラーを突如に一般化することにより、高いパフォーマンス向上をもたらすことが判明した。これらの同期精度の急上昇は、グラッキングのような力学を反映し、モデルが共有算術構造を内部化することを示唆している。また,最終層における注意点の全てからなる部分グラフが,正規指数のタスクにおける完全な性能を達成するのに十分であることを示す。これらの結果から,トランスフォーマーモデルは特殊な計算回路を通じてモジュラー算術を学習し,より解釈可能で効率的なニューラルアプローチによるモジュラー指数化の道を開くことが示唆された。

関連論文リスト

Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning [30.781578037476347]
高度にフレキシブルな非自律型ニューラル常微分方程式(ODE)を用いたトランスフォーマーアーキテクチャのモデリング手法を提案する。提案モデルでは,ニューラルネットワークによる注目度とフィードフォワードブロックの重みをパラメータ化し,これらの重みを連続層インデックスの関数として表現する。我々のニューラルODE変換器は、さまざまな構成やデータセットにわたるバニラ変換器に匹敵するパフォーマンスを示す。
論文参考訳（メタデータ） (2025-03-03T09:12:14Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文参考訳（メタデータ） (2024-10-06T06:04:23Z)
Principled Understanding of Generalization for Generative Transformer Models in Arithmetic Reasoning Tasks [5.522116934552708]
トランスフォーマーベースのモデルは様々なタスクにおいて優れているが、その一般化能力、特に算術的推論では、まだ完全には理解されていない。本稿では,算術課題における変圧器の一般化動作を理解するための統一的理論枠組みを開発する。
論文参考訳（メタデータ） (2024-07-25T11:35:22Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Towards Empirical Interpretation of Internal Circuits and Properties in Grokked Transformers on Modular Polynomials [29.09237503747052]
モジュラー加算のグロキングは、変換器の三角形状のフーリエ表現とその計算回路を実装することが知られている。各操作でグラクされたモデル間の転送性は、特定の組み合わせに限られることを示す。マルチタスクの混合によってコグルーキングが発生し、すべてのタスクで同時にグルーキングが発生する。
論文参考訳（メタデータ） (2024-02-26T16:48:12Z)
Understanding Addition in Transformers [2.07180164747172]
本稿では,n桁整数加算を行うために訓練された1層トランスフォーマーモデルの包括的解析を行う。提案手法は,各桁を対象とする並列ストリームに分割し,各桁の異なる位置に合わせて最適化されたアルゴリズムを用いることを示唆している。
論文参考訳（メタデータ） (2023-10-19T19:34:42Z)
Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文参考訳（メタデータ） (2023-09-11T22:42:50Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)
On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文参考訳（メタデータ） (2022-06-09T17:12:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。