論文の概要: Diversity or Precision? A Deep Dive into Next Token Prediction
- arxiv url: http://arxiv.org/abs/2512.22955v1
- Date: Sun, 28 Dec 2025 14:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.297392
- Title: Diversity or Precision? A Deep Dive into Next Token Prediction
- Title(参考訳): 多様性と精度 : 次のトークン予測を深く掘り下げる
- Authors: Haoyuan Wu, Hai Wang, Jiajia Wu, Jinxiang Ou, Keyao Wang, Weile Chen, Zihao Zheng, Bei Yu,
- Abstract要約: 本研究では,事前学習したトークン出力分布が,その後の強化学習の探索ポテンシャルをいかに形成するかを検討する。
精度指向の勾配を先行させると、RLのより優れた探索空間が得られることが分かる。
- 参考スコア(独自算出の注目度): 19.30494719444709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements have shown that reinforcement learning (RL) can substantially improve the reasoning abilities of large language models (LLMs). The effectiveness of such RL training, however, depends critically on the exploration space defined by the pre-trained model's token-output distribution. In this paper, we revisit the standard cross-entropy loss, interpreting it as a specific instance of policy gradient optimization applied within a single-step episode. To systematically study how the pre-trained distribution shapes the exploration potential for subsequent RL, we propose a generalized pre-training objective that adapts on-policy RL principles to supervised learning. By framing next-token prediction as a stochastic decision process, we introduce a reward-shaping strategy that explicitly balances diversity and precision. Our method employs a positive reward scaling factor to control probability concentration on ground-truth tokens and a rank-aware mechanism that treats high-ranking and low-ranking negative tokens asymmetrically. This allows us to reshape the pre-trained token-output distribution and investigate how to provide a more favorable exploration space for RL, ultimately enhancing end-to-end reasoning performance. Contrary to the intuition that higher distribution entropy facilitates effective exploration, we find that imposing a precision-oriented prior yields a superior exploration space for RL.
- Abstract(参考訳): 近年の進歩により、強化学習(RL)は大規模言語モデル(LLM)の推論能力を大幅に向上させることができることが示されている。
しかし、そのようなRLトレーニングの有効性は、事前訓練されたモデルのトークン出力分布によって定義される探索空間に大きく依存する。
本稿では,標準的なクロスエントロピー損失を再考し,一段階のエピソードに適用したポリシー勾配最適化の具体例として解釈する。
事前学習した分布がその後のRLの探索可能性をどのように形成するかを体系的に研究するため,教師あり学習に適用する汎用事前学習目標を提案する。
確率的決定過程として次の予測をフレーミングすることにより、多様性と精度を明確にバランスさせる報酬形成戦略を導入する。
提案手法は,高位および低位の負のトークンを非対称に処理するランク認識機構と,地平線トークンの確率集中を制御するために,正の報酬スケーリング係数を用いる。
これにより、事前学習したトークン出力分布を再構築し、RLのより良好な探索空間を提供する方法について検討し、最終的にエンドツーエンドの推論性能を向上させることができる。
高い分布エントロピーが効果的な探索を促進するという直観とは対照的に、精度指向の先行収率を付与することはRLの優れた探索空間となる。
関連論文リスト
- From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。
強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。
RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文 参考訳(メタデータ) (2025-10-02T01:31:10Z) - Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective [52.38531288378491]
強化学習(RL)法は大規模言語モデル(LLM)の計画能力を大幅に向上させた
本研究では,RLの利点と制約をグラフに基づく抽出により検討する。
我々の理論的分析から, 教師付き微調整(SFT)は共起性に基づく突発性解を導入しうるが, RLは探索によって正しい計画を立てる。
論文 参考訳(メタデータ) (2025-09-26T17:39:48Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文 参考訳(メタデータ) (2025-05-26T22:51:00Z) - PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。