論文の概要: How Reinforcement Learning After Next-Token Prediction Facilitates Learning
- arxiv url: http://arxiv.org/abs/2510.11495v1
- Date: Mon, 13 Oct 2025 15:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.417361
- Title: How Reinforcement Learning After Next-Token Prediction Facilitates Learning
- Title(参考訳): 次点予測後の強化学習が学習を円滑化する方法
- Authors: Nikolaos Tsilivis, Eran Malach, Karen Ullrich, Julia Kempe,
- Abstract要約: 本研究では,1つのタスクをコードする短い鎖と長い鎖の配列の混合分布から学習する。
次点予測後の強化学習が自己回帰変換器の一般化を可能にすることを示す。
- 参考スコア(独自算出の注目度): 36.98696363889831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reasoning domains with neural networks have primarily been enabled by a training recipe that optimizes Large Language Models, previously trained to predict the next-token in a sequence, with reinforcement learning algorithms. We introduce a framework to study the success of this paradigm, and we theoretically expose the optimization mechanisms by which reinforcement learning improves over next-token prediction in this setting. We study learning from mixture distributions of short and long ``chain-of-thought'' sequences encoding a single task. In particular, when the task consists of predicting the parity of $d$ bits and long sequences are rare, we show how reinforcement learning after next-token prediction enables autoregressive transformers to generalize, whereas mere next-token prediction requires extreme statistical or computational resources to do so. We further explain how reinforcement learning leverages increased test-time computation, manifested in longer responses, to facilitate this learning process. In a simplified setting, we theoretically prove that autoregressive linear models following this training recipe can efficiently learn to predict the parity of $d$ bits as long as the proportion of long demonstrations in the data mix is not exponentially small in the input dimension $d$. Finally, we demonstrate these same phenomena in other settings, including the post-training of Llama-series models on mixture variations of common mathematical reasoning benchmarks.
- Abstract(参考訳): ニューラルネットワークを用いた推論ドメインの最近の進歩は、主に、強化学習アルゴリズムを用いて、シークエンスにおける次のトークンを予測するためにトレーニングされた、大規模言語モデルを最適化するトレーニングレシピによって実現されている。
このパラダイムの成功を研究するためのフレームワークを導入し、この設定において強化学習が次点予測よりも改善する最適化メカニズムを理論的に公開する。
本研究では,1つのタスクをコードする「チェーン・オブ・シークエンス」の短い列と長い列の混合分布から学習する。
特に、そのタスクが$d$ビットのパリティを予測し、長いシーケンスが希少である場合、次のトーケン予測後の強化学習が自己回帰変換器の一般化を可能にすることを示し、一方、単に次のトーケン予測は極端な統計資源や計算資源を必要とする。
さらに、強化学習は、より長い応答で表されるテスト時間計算の増大を活用して、この学習プロセスを促進する方法について説明する。
この学習法に従う自己回帰線形モデルは,データ混合における長い実演の比率が入力次元$d$で指数関数的に小さくなければ,$d$ビットのパリティを効率的に予測できることを理論的に証明する。
最後に,Llama系列モデルの共通数学的推論ベンチマークの混合変種に対する後学習を含む,同様の現象を他の設定で示す。
関連論文リスト
- Context-Aware Inference via Performance Forecasting in Decentralized Learning Networks [0.0]
分散学習ネットワークでは、多くの参加者からの予測が組み合わされ、ネットワーク推論が生成される。
我々は,機械学習を用いて時系列の各エポックにおけるモデルによる予測性能を予測するモデルを開発した。
論文 参考訳(メタデータ) (2025-10-07T20:30:21Z) - Reinforcement Pre-Training [78.5355979575498]
大規模言語モデルと強化学習(RL)のための新しいスケーリングパラダイムとしてReinforcement Pre-Training(RPT)を導入する。
RPTは、ドメイン固有の注釈付き回答に頼るのではなく、大量のテキストデータを汎用RLに活用するためのスケーラブルな方法を提供する。
その結果、RTPは言語モデルの事前学習を促進するための効果的で有望なスケーリングパラダイムとして位置づけられた。
論文 参考訳(メタデータ) (2025-06-09T17:59:53Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Auto-Regressive Next-Token Predictors are Universal Learners [17.416520406390415]
線形次トーケン予測器のような単純なモデルでさえ、チューリングマシンによって効率的に計算される任意の関数を近似することができることを示す。
また、線形ネットワークや浅層多層パーセプトロン(MLP)のような単純な次世代予測器が、テキスト生成や算術タスクにおいて非自明な性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-13T14:15:03Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。