論文の概要: IntSeqBERT: Learning Arithmetic Structure in OEIS via Modulo-Spectrum Embeddings
- arxiv url: http://arxiv.org/abs/2603.05556v1
- Date: Thu, 05 Mar 2026 07:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.190452
- Title: IntSeqBERT: Learning Arithmetic Structure in OEIS via Modulo-Spectrum Embeddings
- Title(参考訳): IntSeqBERT: モジュール-スペクトル埋め込みによるOEISの算術構造学習
- Authors: Kazuhisa Nakasho,
- Abstract要約: IntSeqBERTは、OEIS上でのマスク付き整数列モデリングのためのデュアルストリームトランスフォーマーエンコーダである。
3つの予測ヘッド (マグニチュード回帰, 符号分類, 変調予測) を274,705 OEIS配列で共同で訓練した。
大規模(91.5Mパラメータ)では、IntSeqBERT 95.85%の精度と50.38%の平均モデュロ精度(MMA)がテストセット上に存在する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integer sequences in the OEIS span values from single-digit constants to astronomical factorials and exponentials, making prediction challenging for standard tokenised models that cannot handle out-of-vocabulary values or exploit periodic arithmetic structure. We present IntSeqBERT, a dual-stream Transformer encoder for masked integer-sequence modelling on OEIS. Each sequence element is encoded along two complementary axes: a continuous log-scale magnitude embedding and sin/cos modulo embeddings for 100 residues (moduli $2$--$101$), fused via FiLM. Three prediction heads (magnitude regression, sign classification, and modulo prediction for 100 moduli) are trained jointly on 274,705 OEIS sequences. At the Large scale (91.5M parameters), IntSeqBERT achieves 95.85% magnitude accuracy and 50.38% Mean Modulo Accuracy (MMA) on the test set, outperforming a standard tokenised Transformer baseline by $+8.9$ pt and $+4.5$ pt, respectively. An ablation removing the modulo stream confirms it accounts for $+15.2$ pt of the MMA gain and contributes an additional $+6.2$ pt to magnitude accuracy. A probabilistic Chinese Remainder Theorem (CRT)-based Solver converts the model's predictions into concrete integers, yielding a 7.4-fold improvement in next-term prediction over the tokenised-Transformer baseline (Top-1: 19.09% vs. 2.59%). Modulo spectrum analysis reveals a strong negative correlation between Normalised Information Gain (NIG) and Euler's totient ratio $\varphi(m)/m$ ($r = -0.851$, $p < 10^{-28}$), providing empirical evidence that composite moduli capture OEIS arithmetic structure more efficiently via CRT aggregation.
- Abstract(参考訳): OEISの整数列は、単一桁の定数から天文因子や指数関数までの範囲にまたがっており、語彙外値や周期的な算術構造を扱えない標準的なトークンモデルの予測に挑戦している。
マスク付き整数列モデリング用デュアルストリームトランスフォーマーであるIntSeqBERTを提案する。
各配列要素は、2つの相補的な軸に沿って符号化される: 連続的な対数スケールの埋め込みと100残基(モジュライ2$--101$)に対する sin/cos のモジュロ埋め込みで、FiLMを介して融合される。
3つの予測ヘッド (マグニチュード回帰, 符号分類, 変調予測) を274,705 OEIS配列で共同で訓練した。
大規模(91.5Mパラメータ)では、IntSeqBERTは95.85%の精度と50.38%の平均モデュロ精度をテストセット上で達成し、標準トークン化されたトランスフォーマーベースラインをそれぞれ$+8.9$ ptと$+4.5$ ptで上回った。
モジュロストリームを除去したアブレーションにより、MMAゲインの$+15.2$ ptが決定され、さらに$+6.2$ ptが加算される。
確率論的中国のRemainder Theorem(CRT)ベースのソルバーはモデルの予測を具体的な整数に変換し、トークン化されたトランスフォーマーベースライン(Top-1: 19.09% vs. 2.59%)に対する次の長期予測を7.4倍改善する。
モデュロスペクトル分析は、正規化情報ゲイン(NIG)とオイラーのトジェント比$\varphi(m)/m$$$r = -0.851$, $p < 10^{-28}$との強い負の相関を示し、合成モジュラーがCRTアグリゲーションを介してOEIS演算構造をより効率的に捉えるという実証的な証拠を提供する。
関連論文リスト
- Transformers as Measure-Theoretic Associative Memory: A Statistical Perspective and Minimax Optimality [52.424255020469595]
トランスフォーマーは、コンテント順応可能な検索とコンテキスト、原則として長さを活用できる能力を通じてエクササイズする。
確率尺度のレベルで連想記憶をリキャストし、コンテキストを無拘束トークン上の分布として扱う。
浅度測度理論変換器は入力密度のスペクトル仮定に基づいてリコール・アンド・予測マップを学習することを示す。
論文 参考訳(メタデータ) (2026-02-02T09:34:17Z) - NEXUS: Bit-Exact ANN-to-SNN Equivalence via Neuromorphic Gate Circuits with Surrogate-Free Training [0.7614628596146601]
スパイキングニューラルネットワーク(SNN)は、イベント駆動の空間性を通じてエネルギー効率の高いコンピューティングを約束する。
既存のアプローチでは、離散スパイクで連続的な値を近似することで精度を犠牲にしている。
ビットエクササイズ ANN-to-SNN 等価性を実現するフレームワークであるNEXUS を提案する。
論文 参考訳(メタデータ) (2026-01-29T05:23:56Z) - Learning Pseudorandom Numbers with Transformers: Permuted Congruential Generators, Curricula, and Interpretability [10.75037955193936]
変圧器モデルによる変圧器発電機(PCG)のシーケンス学習能力について検討する。
PCGは、一連のビットワイズシフト、XOR、回転、切り離しを隠された状態に適用することで、線形合同発生器(LCG)に対してかなりの困難をもたらす。
いずれにせよ,トランスフォーマーは多様なPCG変種からの未知のシーケンスに対して,コンテクスト内での予測を成功させることができることを示す。
論文 参考訳(メタデータ) (2025-10-30T17:59:09Z) - Do Large Language Models Truly Grasp Addition? A Rule-Focused Diagnostic Using Two-Integer Arithmetic [21.014229380679975]
大規模言語モデル(LLM)は高度な数学のベンチマークでは印象的な結果を得るが、基本的な算術的なタスクでは失敗することがある。
基本演算規則を真に把握したのか、それとも単にパターンマッチングに依存しているのかを考察する。
モデルでは高い数値精度を達成できるが、これらの診断は体系的に失敗する。
論文 参考訳(メタデータ) (2025-04-07T16:57:10Z) - (How) Can Transformers Predict Pseudo-Random Numbers? [7.201095605457193]
線形合同生成器(LCG)から擬似ランダム数列を学習するトランスフォーマーの能力について検討する。
トランスフォーマーは、未知のmoduli(m$)とパラメータ(a,c$)でLCGシーケンスのコンテキスト内予測を行うことができる。
また、Transformerは、$m_texttest = 216$まで、unseen moduliに一般化できることを示す。
論文 参考訳(メタデータ) (2025-02-14T18:59:40Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。