論文の概要: The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior
- arxiv url: http://arxiv.org/abs/2604.13082v1
- Date: Mon, 30 Mar 2026 22:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.671551
- Title: The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior
- Title(参考訳): 算数的一般化への長い遅れ--表現の学習と実行行動
- Authors: Laura Gomezjurado Gonzalez,
- Abstract要約: 本研究では,1段階のコラッツ予測について検討し,最初の数千の訓練段階において,エンコーダがパリティと残留構造を整理することを確認した。
この遅延は、そもそもその構造を取得するのに失敗するのではなく、既に学んだ構造への限られたアクセスを反映している、と我々は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking in transformers trained on algorithmic tasks is characterized by a long delay between training-set fit and abrupt generalization, but the source of that delay remains poorly understood. In encoder-decoder arithmetic models, we argue that this delay reflects limited access to already learned structure rather than failure to acquire that structure in the first place. We study one-step Collatz prediction and find that the encoder organizes parity and residue structure within the first few thousand training steps, while output accuracy remains near chance for tens of thousands more. Causal interventions support the decoder bottleneck hypothesis. Transplanting a trained encoder into a fresh model accelerates grokking by 2.75 times, while transplanting a trained decoder actively hurts. Freezing a converged encoder and retraining only the decoder eliminates the plateau entirely and yields 97.6% accuracy, compared to 86.1% for joint training. What makes the decoder's job harder or easier depends on numeral representation. Across 15 bases, those whose factorization aligns with the Collatz map's arithmetic (e.g., base 24) reach 99.8% accuracy, while binary fails completely because its representations collapse and never recover. The choice of base acts as an inductive bias that controls how much local digit structure the decoder can exploit, producing large differences in learnability from the same underlying task.
- Abstract(参考訳): アルゴリズム的タスクで訓練された変換器のグロッキングは、トレーニングセット適合と突然の一般化の間に長い遅延があるのが特徴であるが、その遅延の原因はよく分かっていない。
エンコーダ・デコーダ算術モデルでは、この遅延は、そもそもその構造を取得するのに失敗するのではなく、既に学んだ構造への限られたアクセスを反映していると論じる。
我々は1ステップのコラッツ予測を調査し、最初の数千のトレーニングステップでエンコーダがパリティと残留構造を整理するのに対して、出力精度は数万のトレーニングステップに近づいたままである。
因果介入はデコーダボトルネック仮説を支持する。
訓練されたエンコーダを新しいモデルに移植すると、グラッキングが2.75倍加速し、訓練されたデコーダを移植することが活発に傷つく。
収束したエンコーダを凍結し、デコーダのみを再訓練すると、プラトーは完全に取り除かれ、97.6%の精度が得られる。
デコーダのジョブが難しいか、あるいは簡単かは、数値表現に依存する。
係数化がコラッツ写像の算術(例えば、ベース24)と一致している15の基底で99.8%の精度に達するが、表現が崩壊して回復しないためにバイナリは完全に失敗する。
ベースの選択は、デコーダがどの程度ローカルな桁構造を活用できるかを制御する誘導バイアスとして機能し、同じ基礎となるタスクから学習可能性に大きな違いをもたらす。
関連論文リスト
- AI-Enabled Decoding of Qubit Loss for Quantum Error-Correcting Codes [16.0178741156376]
量子ビット損失は、量子計算における主要なエラー源である。
グラフニューラルネットワークアーキテクチャに基づく人工知能型デコーダを開発した。
論文 参考訳(メタデータ) (2026-04-15T17:59:35Z) - Generalization Bounds for Transformer Channel Decoders [61.55280736553095]
本稿では,ECCTの一般化性能を学習理論の観点から検討する。
我々の知る限りでは、この研究はこの種のデコーダに対する最初の理論的一般化保証を提供する。
論文 参考訳(メタデータ) (2026-01-11T15:56:37Z) - Decoder Switching: Breaking the Speed-Accuracy Tradeoff in Real-Time Quantum Error Correction [2.370310454459195]
デコーダの精度を改善する努力は、デコード時間とハードウェアの複雑さを許容できないほど増加させる。
本稿では,高速なソフトアウトプットデコーダと低速で高精度なデコーダを組み合わせることで,競合する要求のバランスをとる新しいデコーダ・フレームワークを提案する。
このフレームワークは、弱い復号器と同等の平均復号時間を保ちながら、強い復号器の精度に匹敵する、あるいは超えるような精度を達成できることを示す。
論文 参考訳(メタデータ) (2025-10-29T06:56:33Z) - Neural Decoders for Universal Quantum Algorithms [0.43553942673960666]
モジュール型アテンションベースニューラルデコーダを導入し,ゲートによる相関関係を学習する。
我々のデコーダは、最もエラーに近いデコーダに匹敵する高速な推論と論理的エラー率を達成する。
これらの結果は、量子コンピューティングの実用的で汎用的で高性能なツールとして、ニューラルデコーダを確立している。
論文 参考訳(メタデータ) (2025-09-14T17:51:46Z) - Fast correlated decoding of transversal logical algorithms [67.01652927671279]
大規模計算には量子エラー補正(QEC)が必要であるが、かなりのリソースオーバーヘッドが発生する。
近年の進歩により、論理ゲートからなるアルゴリズムにおいて論理キュービットを共同で復号化することにより、症候群抽出ラウンドの数を削減できることが示されている。
ここでは、回路を介して伝播する関連する論理演算子製品を直接復号することで、回路の復号化の問題を修正する。
論文 参考訳(メタデータ) (2025-05-19T18:00:00Z) - Generalizing the matching decoder for the Chamon code [1.8416014644193066]
チャモン符号として知られる3次元,非CSS,低密度のパリティチェックコードに対して,マッチングデコーダのバリエーションを実装した。
一般化された整合デコーダは、整合前に信念伝播ステップによって拡張され、ノイズの偏極に対するしきい値が10.5%となる。
論文 参考訳(メタデータ) (2024-11-05T19:00:12Z) - Think Twice before Driving: Towards Scalable Decoders for End-to-End
Autonomous Driving [74.28510044056706]
既存のメソッドは通常、分離されたエンコーダ-デコーダパラダイムを採用する。
本研究は,この問題を2つの原則で緩和することを目的としている。
まず、エンコーダの特徴に基づいて、粗い将来の位置と行動を予測する。
そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
論文 参考訳(メタデータ) (2023-05-10T15:22:02Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。