Fugu-MT 論文翻訳(概要): (How) Can Transformers Predict Pseudo-Random Numbers?

論文の概要: (How) Can Transformers Predict Pseudo-Random Numbers?

arxiv url: http://arxiv.org/abs/2502.10390v1
Date: Fri, 14 Feb 2025 18:59:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 19:47:35.848334
Title: (How) Can Transformers Predict Pseudo-Random Numbers?
Title（参考訳）: ()トランスフォーマーは擬似乱数を予測することができるのか?
Authors: Tao Tao, Darshil Doshi, Dayal Singh Kalra, Tianyu He, Maissam Barkeshli,
Abstract要約: 線形合同生成器(LCG)から擬似ランダム数列を学習するトランスフォーマーの能力について検討する。我々の分析によれば、トランスフォーマーは無意味なmoduli(m$)とパラメータ(a,c$)でLCGシーケンスのコンテキスト内予測を行うことができる。
参考スコア（独自算出の注目度）: 7.201095605457193
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers excel at discovering patterns in sequential data, yet their fundamental limitations and learning mechanisms remain crucial topics of investigation. In this paper, we study the ability of Transformers to learn pseudo-random number sequences from linear congruential generators (LCGs), defined by the recurrence relation $x_{t+1} = a x_t + c \;\mathrm{mod}\; m$. Our analysis reveals that with sufficient architectural capacity and training data variety, Transformers can perform in-context prediction of LCG sequences with unseen moduli ($m$) and parameters ($a,c$). Through analysis of embedding layers and attention patterns, we uncover how Transformers develop algorithmic structures to learn these sequences in two scenarios of increasing complexity. First, we analyze how Transformers learn LCG sequences with unseen ($a, c$) but fixed modulus, and we demonstrate successful learning up to $m = 2^{32}$. Our analysis reveals that models learn to factorize the modulus and utilize digit-wise number representations to make sequential predictions. In the second, more challenging scenario of unseen moduli, we show that Transformers can generalize to unseen moduli up to $m_{\text{test}} = 2^{16}$. In this case, the model employs a two-step strategy: first estimating the unknown modulus from the context, then utilizing prime factorizations to generate predictions. For this task, we observe a sharp transition in the accuracy at a critical depth $=3$. We also find that the number of in-context sequence elements needed to reach high accuracy scales sublinearly with the modulus.
Abstract（参考訳）: トランスフォーマーはシーケンシャルデータにおけるパターンの発見に長けているが、その基本的な制限と学習メカニズムは依然として調査の重要なトピックである。本稿では, 線形合同生成器 (LCG) から擬似乱数列を学習するトランスフォーマーの能力について検討し, 再帰関係 $x_{t+1} = a x_t + c \;\mathrm{mod}\; m$ で定義される。解析の結果、十分なアーキテクチャ能力とトレーニングデータにより、トランスフォーマーは未知のmoduli(m$)とパラメータ(a,c$)でLCGシーケンスのコンテキスト内予測を行うことができることがわかった。埋め込みレイヤとアテンションパターンの分析を通じて、トランスフォーマーがアルゴリズム構造を開発し、これらのシーケンスを複雑さを増大させる2つのシナリオで学習する方法を明らかにする。まず、トランスフォーマーが未確認(a, c$)だが固定率でLCGシーケンスを学習する方法を分析し、最大で$m = 2^{32}$の学習に成功したことを実証する。解析の結果,モデルが係数を分解し,桁数表現を用いて逐次予測を行うことが判明した。 2つ目の難解なモジュライのシナリオは、Transformerがunseen moduliを$m_{\text{test}} = 2^{16}$まで一般化できることを示しています。この場合、モデルは2段階の戦略を用いる: まず、未知の係数を文脈から推定し、次に素因数分解を利用して予測を生成する。この課題に対して、臨界深度$3$で精度の急激な遷移を観察する。また、高精度なスケールに到達するのに必要となるコンテキスト内シーケンス要素の数が、係数と直交することがわかった。

関連論文リスト

Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent [15.291830857281015]
勾配法を用いて学習すると,トランスフォーマーが真に単純な多数関数を学習できるかどうかを検討する。我々の分析は、$mathrmpoly(d)$グラデーションクエリ後も、Transformerモデルの一般化誤差は依然としてかなり大きいことを証明している。
論文参考訳（メタデータ） (2025-04-07T03:08:12Z)
Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文参考訳（メタデータ） (2024-10-06T06:04:23Z)
Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文参考訳（メタデータ） (2024-10-03T21:21:02Z)
Can Transformers Do Enumerative Geometry? [44.99833362998488]
計算列挙幾何に対する Transformer ベースのアプローチを提案する。交差点番号は10-45ドルから1045ドルまでの範囲で計算します。我々はトランスフォーマーの列挙型「世界モデル」を探求する。
論文参考訳（メタデータ） (2024-08-27T09:44:01Z)
How Well Can Transformers Emulate In-context Newton's Method? [46.08521978754298]
線形回帰以外の高次最適化手法をトランスフォーマーで行うことができるかどうかを考察する。 2層のみの行列逆転に対するニュートンの反復の単一ステップの実装において、線形注意のみの変換器が可能であることを実証する。
論文参考訳（メタデータ） (2024-03-05T18:20:10Z)
Understanding Addition in Transformers [2.07180164747172]
本稿では,n桁整数加算を行うために訓練された1層トランスフォーマーモデルの包括的解析を行う。提案手法は,各桁を対象とする並列ストリームに分割し,各桁の異なる位置に合わせて最適化されたアルゴリズムを用いることを示唆している。
論文参考訳（メタデータ） (2023-10-19T19:34:42Z)
Transformers as Algorithms: Generalization and Implicit Model Selection in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文参考訳（メタデータ） (2023-01-17T18:31:12Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文参考訳（メタデータ） (2022-10-19T17:45:48Z)
Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文参考訳（メタデータ） (2021-09-30T16:41:19Z)
$O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文参考訳（メタデータ） (2020-06-08T18:30:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。