論文の概要: Transformers know more than they can tell -- Learning the Collatz sequence
- arxiv url: http://arxiv.org/abs/2511.10811v1
- Date: Thu, 13 Nov 2025 21:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.335826
- Title: Transformers know more than they can tell -- Learning the Collatz sequence
- Title(参考訳): トランスフォーマーは知る以上のことを知っている -- Collatzシークエンスを学ぶ
- Authors: François Charton, Ashvni Narayanan,
- Abstract要約: 長いコラッツステップの変圧器予測について検討する。
複素算術関数は奇数の整数を遠い後継者に写像する。
ベースに関係なく、すべてのモデルは共通の学習パターンに従います。
- 参考スコア(独自算出の注目度): 14.743042834601226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate transformer prediction of long Collatz steps, a complex arithmetic function that maps odd integers to their distant successors in the Collatz sequence ( $u_{n+1}=u_n/2$ if $u_n$ is even, $u_{n+1}=(3u_n+1)/2$ if $u_n$ is odd). Model accuracy varies with the base used to encode input and output. It can be as high as $99.7\%$ for bases $24$ and $32$, and as low as $37$ and $25\%$ for bases $11$ and $3$. Yet, all models, no matter the base, follow a common learning pattern. As training proceeds, they learn a sequence of classes of inputs that share the same residual modulo $2^p$. Models achieve near-perfect accuracy on these classes, and less than $1\%$ for all other inputs. This maps to a mathematical property of Collatz sequences: the length of the loops involved in the computation of a long Collatz step can be deduced from the binary representation of its input. The learning pattern reflects the model learning to predict inputs associated with increasing loop lengths. An analysis of failure cases reveals that almost all model errors follow predictable patterns. Hallucination, a common feature of large language models, almost never happens. In over $90\%$ of failures, the model performs the correct calculation, but wrongly estimates loop lengths. Our observations give a full account of the algorithms learned by the models. They suggest that the difficulty of learning such complex arithmetic function lies in figuring the control structure of the computation -- the length of the loops. We believe that the approach outlined here, using mathematical problems as tools for understanding, explaining, and perhaps improving language models, can be applied to a broad range of problems and bear fruitful results.
- Abstract(参考訳): 奇数整数をコラッツ列($u_{n+1}=u_n/2$ if $u_n$ is even, $u_{n+1}=(3u_n+1)/2$ if $u_n$ is odd)で遠方の後継者に写像する複素算術関数である長コラッツステップの変圧器予測について検討する。
モデルの精度は入力と出力を符号化するベースによって変化する。
ベースは24ドルと32ドルで99.7\%、ベースは37ドルと25\%で11ドルと3ドルだ。
しかし、ベースに関係なく、すべてのモデルは共通の学習パターンに従います。
訓練が進むにつれて、彼らは同じ残余モジュロ2^p$を共有する入力の一連のクラスを学ぶ。
モデルはこれらのクラスでほぼ完璧な精度を達成し、他のすべての入力に対して1\%以下である。
これはコラッツ列の数学的性質にマッピングされ、長いコラッツステップの計算に関わるループの長さはその入力のバイナリ表現から導出できる。
学習パターンは、ループ長の増加に伴う入力を予測するためのモデル学習を反映する。
フェールケースの分析により、ほぼすべてのモデルエラーが予測可能なパターンに従うことが明らかになった。
大きな言語モデルの一般的な特徴である幻覚は、ほとんど起こらない。
90 %以上の障害では、モデルが正しい計算を行うが、誤ってループ長を推定する。
私たちの観察では、モデルによって学習されたアルゴリズムの完全な説明が得られます。
彼らは、そのような複雑な算術関数を学習することの難しさは、計算の制御構造、すなわちループの長さを判断することにあることを示唆している。
ここで概説したアプローチは、数学的問題を言語モデルを理解し、説明し、おそらく改善するためのツールとして利用し、幅広い問題に適用し、実りある結果をもたらすことができると信じている。
関連論文リスト
- Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls [54.57326125204404]
言語モデルはますます能力が高くなっているが、多桁乗算という一見単純なタスクではまだ失敗している。
直観的連鎖を通して乗法をうまく学習するモデルをリバースエンジニアリングすることでなぜ研究する。
論文 参考訳(メタデータ) (2025-09-30T19:03:26Z) - Reasoning with Latent Thoughts: On the Power of Looped Transformers [52.84192961524481]
多くの合成推論問題に対して、$k$層変換器が$L$倍ループしたことが、$kL$層非ループモデルの性能にほぼ一致することを示す。
ループ型および非ループ型モデルは、その有効深さに依存するスケーリングの挙動を示す。
論文 参考訳(メタデータ) (2025-02-24T18:49:05Z) - (How) Can Transformers Predict Pseudo-Random Numbers? [7.201095605457193]
線形合同生成器(LCG)から擬似ランダム数列を学習するトランスフォーマーの能力について検討する。
トランスフォーマーは、未知のmoduli(m$)とパラメータ(a,c$)でLCGシーケンスのコンテキスト内予測を行うことができる。
また、Transformerは、$m_texttest = 216$まで、unseen moduliに一般化できることを示す。
論文 参考訳(メタデータ) (2025-02-14T18:59:40Z) - Making Hard Problems Easier with Custom Data Distributions and Loss Regularization: A Case Study in Modular Arithmetic [30.93087957720688]
モジュール演算タスクにおけるMLモデルの性能を大幅に向上させる技術を開発した。
私たちの中心となるイノベーションは、カスタムトレーニングデータディストリビューションの使用と、慎重に設計された損失関数です。
我々の技術は、コピー、連想的リコール、パリティなど、MLモデルが他のよく研究された問題をよりよく学習するのに役立つ。
論文 参考訳(メタデータ) (2024-10-04T16:19:33Z) - Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia [55.23627698804683]
本研究では, 変圧器を用いた大規模言語モデルを用いて, 異なる数値システムのスケーリング挙動について検討する。
ベース10ドルシステムは、トレーニングデータスケール全体で、ベース102ドルまたは103ドルよりも一貫してデータ効率が高い。
私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
論文 参考訳(メタデータ) (2024-09-25T22:08:31Z) - Simple online learning with consistent oracle [55.43220407902113]
オンライン学習は、学習アルゴリズムが、どの時点でも、今まで見てきたすべての例に一致する関数をクラスから与えることができる、という、一貫性のあるオラクルを通じてのみクラスにアクセスすることができるモデルであると考えている。
論文 参考訳(メタデータ) (2023-08-15T21:50:40Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Length Generalization in Arithmetic Transformers [41.62455986786115]
本稿では,変圧器が基本的な整数算術を学習し,学習中に見られるよりも長い列に一般化する,という2つの課題に対処する方法を示す。
トレーニングセットに数列(10ドルから50ドル)の長いシーケンスを追加する。
プリミリングによって5ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3.99セント/3ドル/3.99セント/3ドル/3ドル/3ドル/3.99ドル/3ドル/3ドル/
論文 参考訳(メタデータ) (2023-06-27T11:53:25Z) - On the Provable Generalization of Recurrent Neural Networks [7.115768009778412]
リカレントニューラルネットワーク(RNN)のトレーニングと一般化の分析
正規化条件を使わずに関数を学習する一般化誤差を証明した。
また、入力シーケンスのN-変数関数を学習するための新しい結果も証明する。
論文 参考訳(メタデータ) (2021-09-29T02:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。