論文の概要: Learning Large-Scale Modular Addition with an Auxiliary Modulus
- arxiv url: http://arxiv.org/abs/2605.07648v1
- Date: Fri, 08 May 2026 12:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.034231
- Title: Learning Large-Scale Modular Addition with an Auxiliary Modulus
- Title(参考訳): 補助モジュールによる大規模モジュール付加の学習
- Authors: Hanato Kikuchi, Ryosuke Masuya, Kazuhiko Kawamoto, Hiroshi Kera,
- Abstract要約: 最近の研究では、和数とモジュラリティの両方において、モジュール加算学習を実質的にスケールさせた。
本研究は, この側面効果を理論的, 実験的に解析し, モジュラ付加のための共シフトフリー法を提案する。
- 参考スコア(独自算出の注目度): 11.864560633772678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning parity functions, more general modular addition, is a challenging machine learning task due to its input sensitivity. A recent study substantially scaled modular addition learning in both the number of summands and the modulus. Its key idea is to increase zeros in training sequences, reducing the effective number of summands and thus controlling training difficulty; however, this induces covariate shift between training and test input distributions. This study theoretically and empirically analyzes this side effect and proposes a covariate-shift-free method for modular addition. Specifically, we introduce an auxiliary modulus $Kq$ during training, which reduces wrap-around frequency and problem difficulty while preserving the same input distribution across training and testing. Experiments show strong scalability and sample efficiency: even for large input length $N$, large modulus $q$, and small datasets -- where the sparse method fails to learn -- our method achieves equal or better match accuracy and relaxed $τ$-accuracy. For example, at $N=64$ and $q=974269$, our method trained on 100K samples achieves $97.0\%$ $τ$-accuracy at $τ=0.05$, while the sparse method achieves only $9.5\%$ with the same data size and $93.9\%$ even when extended to 1M samples.
- Abstract(参考訳): より一般的なモジュール追加である学習パリティ関数は、入力感度のために難しい機械学習タスクである。
最近の研究では、和数とモジュラリティの両方において、モジュール加算学習を実質的にスケールさせた。
その鍵となる考え方は、トレーニングシーケンスのゼロを増大させ、有効数のサマンドを減らし、トレーニングの難しさを制御することであるが、これはトレーニングとテスト入力の分布の共変を誘導する。
本研究は, この側面効果を理論的, 実験的に解析し, モジュラ付加に対する共変量シフトフリー法を提案する。
具体的には、トレーニングとテストで同じ入力分布を保ちながら、ラップアラウンド頻度と問題の難易度を低減できる補助率$Kq$を導入する。
実験では、大きな入力長$N$、大きな modulus $q$、小さなデータセット -- スパース法が学習に失敗している -- に対して、我々の手法は同等あるいはより良いマッチング精度を達成し、τ$-精度を緩和する。
例えば、$N=64$と$q=974269$では、100Kサンプルでトレーニングされたメソッドは、$τ=0.05$で$τ$-accuracyが9.7.0%、同じデータサイズで9.5\%が9.9\%が1Mサンプルに拡張されても9.9\%となる。
関連論文リスト
- MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models [53.36415620647177]
半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。
既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。
MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
論文 参考訳(メタデータ) (2025-06-15T15:02:59Z) - ALLMod: Exploring $\underline{\mathbf{A}}$rea-Efficiency of $\underline{\mathbf{L}}$UT-based $\underline{\mathbf{L}}$arge Number $\underline{\mathbf{Mod}}$ular Reduction via Hybrid Workloads [18.634794494170617]
高ビット幅の操作は、セキュリティの強化に不可欠である。
計算量が多いのは、多くのモジュラー演算が必要なためである。
AllModは、LUTベースの大規模モジュラーリダクションの面積効率を改善する新しいアプローチである。
論文 参考訳(メタデータ) (2025-03-20T07:47:34Z) - EMC$^2$: Efficient MCMC Negative Sampling for Contrastive Learning with Global Convergence [43.96096434967746]
対照的学習における鍵となる課題は、正のサンプルと対照的に大きなサンプルセットから負のサンプルを生成することである。
コントラスト学習のための効率的なマルコフ連鎖モンテカルロ陰性サンプリング法(EMC$2$)を提案する。
EMC$2$は,バッチサイズの選択に関係なく,グローバル収束(定常性)を示す最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2024-04-16T13:53:58Z) - Testable Learning with Distribution Shift [9.036777309376697]
分散シフトを伴うテスト可能学習と呼ばれる新しいモデルを定義する。
テスト分布上の分類器の性能を証明可能なアルゴリズムを得る。
ハーフスペースやハーフスペースの交点,決定木といった概念クラスを学ぶ上で,いくつかの肯定的な結果が得られる。
論文 参考訳(メタデータ) (2023-11-25T23:57:45Z) - FABind: Fast and Accurate Protein-Ligand Binding [127.7790493202716]
$mathbfFABind$はポケット予測とドッキングを組み合わせたエンドツーエンドモデルで、正確で高速なタンパク質-リガンド結合を実現する。
提案モデルでは,既存手法と比較して有効性と効率性に強い利点が示される。
論文 参考訳(メタデータ) (2023-10-10T16:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。