論文の概要: Learning Pseudorandom Numbers with Transformers: Permuted Congruential Generators, Curricula, and Interpretability
- arxiv url: http://arxiv.org/abs/2510.26792v1
- Date: Thu, 30 Oct 2025 17:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.971883
- Title: Learning Pseudorandom Numbers with Transformers: Permuted Congruential Generators, Curricula, and Interpretability
- Title(参考訳): 変圧器を用いた擬似乱数学習:変圧器・変圧器・カリキュラム・解釈可能性
- Authors: Tao Tao, Maissam Barkeshli,
- Abstract要約: 変圧器モデルによる変圧器発電機(PCG)のシーケンス学習能力について検討する。
PCGは、一連のビットワイズシフト、XOR、回転、切り離しを隠された状態に適用することで、線形合同発生器(LCG)に対してかなりの困難をもたらす。
いずれにせよ,トランスフォーマーは多様なPCG変種からの未知のシーケンスに対して,コンテクスト内での予測を成功させることができることを示す。
- 参考スコア(独自算出の注目度): 10.75037955193936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the ability of Transformer models to learn sequences generated by Permuted Congruential Generators (PCGs), a widely used family of pseudo-random number generators (PRNGs). PCGs introduce substantial additional difficulty over linear congruential generators (LCGs) by applying a series of bit-wise shifts, XORs, rotations and truncations to the hidden state. We show that Transformers can nevertheless successfully perform in-context prediction on unseen sequences from diverse PCG variants, in tasks that are beyond published classical attacks. In our experiments we scale moduli up to $2^{22}$ using up to $50$ million model parameters and datasets with up to $5$ billion tokens. Surprisingly, we find even when the output is truncated to a single bit, it can be reliably predicted by the model. When multiple distinct PRNGs are presented together during training, the model can jointly learn them, identifying structures from different permutations. We demonstrate a scaling law with modulus $m$: the number of in-context sequence elements required for near-perfect prediction grows as $\sqrt{m}$. For larger moduli, optimization enters extended stagnation phases; in our experiments, learning moduli $m \geq 2^{20}$ requires incorporating training data from smaller moduli, demonstrating a critical necessity for curriculum learning. Finally, we analyze embedding layers and uncover a novel clustering phenomenon: the model spontaneously groups the integer inputs into bitwise rotationally-invariant clusters, revealing how representations can transfer from smaller to larger moduli.
- Abstract(参考訳): 疑似乱数生成器(PRNG)のファミリーであるPermuted Congruential Generators (PCGs) が生成したシーケンスをトランスフォーマーモデルで学習する能力について検討した。
PCGは、一連のビットワイズシフト、XOR、回転、切り離しを隠された状態に適用することで、線形合同発生器(LCG)に対してかなりの困難をもたらす。
いずれにせよ,トランスフォーマーは,古典的攻撃を超越したタスクにおいて,多様なPCG変種からの未知のシーケンスに対して,コンテクスト内での予測を成功させることができることを示す。
実験では、最大5億ドルのトークンを持つモデルパラメータとデータセットを使用して、モジュライを最大$2^{22}$までスケールします。
驚くべきことに、出力が1ビットに切り替わっている場合でも、モデルによって確実に予測できる。
トレーニング中に複数の異なるPRNGが一緒に提示されると、モデルはそれらを共同で学習し、異なる置換から構造を識別する。
我々は modulus $m$: ほぼ完全な予測に必要なコンテキスト内シーケンス要素の数は $\sqrt{m}$ として増加することを示した。
我々の実験では、より小さなモジュラーからのトレーニングデータを組み込むことが必要であり、カリキュラム学習にとって重要な必要性を示す。
最後に、埋め込み層を解析し、新しいクラスタリング現象を明らかにする: モデルは、整数入力をビット単位の回転不変なクラスタに自発的にグループ化し、表現がより小さなモジュールからより大きなモジュールへどのように移行できるかを明らかにする。
関連論文リスト
- Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls [54.57326125204404]
言語モデルはますます能力が高くなっているが、多桁乗算という一見単純なタスクではまだ失敗している。
直観的連鎖を通して乗法をうまく学習するモデルをリバースエンジニアリングすることでなぜ研究する。
論文 参考訳(メタデータ) (2025-09-30T19:03:26Z) - Transformers in Pseudo-Random Number Generation: A Dual Perspective on Theory and Practice [1.8725832935669624]
Pseudo-random number generators (PRNG) は高非線形プロセスであり、大規模言語モデルの最適化において鍵となるブロックである。
変換器を用いて高品質な擬似ランダム数を生成することは妥当であることを示す。
論文 参考訳(メタデータ) (2025-08-02T01:31:53Z) - The Generative Leap: Sharp Sample Complexity for Efficiently Learning Gaussian Multi-Index Models [71.5283441529015]
この研究において、ラベルは(ガウス)$d$-次元入力にのみ依存し、低次元$r = O_d(1)$部分空間への射影を通して得られる。
生成的跳躍指数 $kstar$, [Damian et al.'24] から生成的指数の自然拡張をマルチインデックス設定に導入する。
論文 参考訳(メタデータ) (2025-06-05T18:34:56Z) - Learning Compositional Functions with Transformers from Easy-to-Hard Data [63.96562216704653]
我々は、$k$入力置換と$k$隠れ置換のインターリーブ構成を計算しなければならない$k$フォールド合成タスクの学習可能性について検討する。
この関数クラスは、$O(log k)$-depth変換器への勾配降下により、実行時とサンプルを$k$で効率的に学習できることを示す。
論文 参考訳(メタデータ) (2025-05-29T17:22:00Z) - (How) Can Transformers Predict Pseudo-Random Numbers? [7.201095605457193]
線形合同生成器(LCG)から擬似ランダム数列を学習するトランスフォーマーの能力について検討する。
トランスフォーマーは、未知のmoduli(m$)とパラメータ(a,c$)でLCGシーケンスのコンテキスト内予測を行うことができる。
また、Transformerは、$m_texttest = 216$まで、unseen moduliに一般化できることを示す。
論文 参考訳(メタデータ) (2025-02-14T18:59:40Z) - Can Transformers Do Enumerative Geometry? [44.99833362998488]
計算列挙幾何に対する Transformer ベースのアプローチを提案する。
私たちは、10-45$から1045$までの値の交叉数を計算します。
ネットワークは、純粋にデータ駆動方式で、ヴィラソロ制約を暗黙的にモデル化していることを示す。
論文 参考訳(メタデータ) (2024-08-27T09:44:01Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。