論文の概要: BOW: Reinforcement Learning for Bottlenecked Next Word Prediction
- arxiv url: http://arxiv.org/abs/2506.13502v2
- Date: Fri, 26 Sep 2025 23:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.746237
- Title: BOW: Reinforcement Learning for Bottlenecked Next Word Prediction
- Title(参考訳): BOW:Bottlenecked Next Word Predictionのための強化学習
- Authors: Ming Shen, Zhikun Xu, Jacob Dineen, Xiao Ye, Ben Zhou,
- Abstract要約: 次単語予測(NWP)のRL式であるbottle next-Word Prediction(BOW)を提案する。
BOWはバニラNWPの代替であり、明示的な次の単語推論を誘発し、一般的な推論能力を強化する。
- 参考スコア(独自算出の注目度): 9.219154888448736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are typically pretrained with next-word prediction (NWP), which yields strong surface fluency but places limited pressure on models to form explicit reasoning before emitting tokens. We study whether shifting the supervision signal can better elicit explicit reasoning and, more broadly, strengthen models' general reasoning capability. We present BOttlenecked next-Word prediction (BOW), a RL formulation of NWP that inserts an intermediate reasoning bottleneck. Instead of predicting the next word directly from context, the policy model must first generate a next-word reasoning trajectory. A frozen scorer then assigns this trajectory a soft, distributional reward equal to the probability of the gold next token conditioned solely on the trajectory to guide the RL optimization. We also propose an optional L1-style regularizer on the reward to discourage "name-the-answer" shortcuts. Across ten benchmarks, a brief BOW adaptation phase on Qwen2.5-7B-Instruct and Llama3.1-8B-Instruct improves zero-shot reasoning and outperforms strong continual-pretraining baselines, including an RL variant with a hard, binary reward and a supervised finetuning approach with augmented data, by nearly 5% on average, while achieving the top result in 7 of 10 intrinsic NWP evaluations. These results indicate that BOW is a viable alternative to vanilla NWP, inducing explicit next-word reasoning and strengthening general reasoning ability.
- Abstract(参考訳): 大型言語モデル (LLM) は通常、NWP (next-word prediction) によって事前訓練される。
本研究では, 教師信号のシフトにより, 明示的推論が促進され, より広範に, モデルの一般的な推論能力が強化されるかどうかを考察する。
中間的推論ボトルネックを挿入するNWPのRL式であるBOW(Bottlenecked Next-Word Prediction)を提案する。
ポリシーモデルは、コンテキストから直接次の単語を予測する代わりに、まず次の単語の推論軌跡を生成する必要がある。
凍結したスコアラーはこの軌道に、RL最適化を導くために軌道のみに条件付けられた金の次のトークンの確率に等しい、ソフトな分布的な報酬を割り当てる。
また"name-the-answer"ショートカットを回避するための報酬として,オプションのL1スタイル正規化器を提案する。
10のベンチマークで、Qwen2.5-7B-InstructとLlama3.1-8B-Instructの短いBOW適応フェーズは、ゼロショット推論を改善し、ハードでバイナリな報酬を持つRL変種や、拡張データによる教師付き微調整アプローチを含む強力な連続的なトレーニングベースラインを平均で5%近く上回り、内在的なNWP評価の7つでトップ結果を達成する。
これらの結果から,BOWはバニラNWPの代替として有効であることが示唆された。
関連論文リスト
- Reinforcement Pre-Training [78.5355979575498]
大規模言語モデルと強化学習(RL)のための新しいスケーリングパラダイムとしてReinforcement Pre-Training(RPT)を導入する。
RPTは、ドメイン固有の注釈付き回答に頼るのではなく、大量のテキストデータを汎用RLに活用するためのスケーラブルな方法を提供する。
その結果、RTPは言語モデルの事前学習を促進するための効果的で有望なスケーリングパラダイムとして位置づけられた。
論文 参考訳(メタデータ) (2025-06-09T17:59:53Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Back to Square One: Bias Detection, Training and Commonsense
Disentanglement in the Winograd Schema [106.79804048131253]
Winograd(WS)は、モデルの常識能力を測定するテストとして提案されている。
本稿では,WS の現在評価手法が準最適であることを示し,その評価にツイン文を用いる修正を提案する。
私たちは、WSの明らかな進歩の多くは、必ずしも常識推論の進歩を反映していないと結論付けています。
論文 参考訳(メタデータ) (2021-04-16T15:17:23Z) - Innovative Bert-based Reranking Language Models for Speech Recognition [15.762742686665652]
自動音声認識(ASR)によるN-best仮説のランク付けに用いるBERTに基づく文脈化言語モデル(LM)の新たなインスタンス化を提案する。
そこで我々は,BERTを予測問題とするN-best仮説を,N-best仮説(PBERTにより代入された)を前提として,最も低い単語誤り率(WER)を持つオラクル仮説を予測することを目的とする。
特に,N-best仮説の再評価においてPBERTを支援するために,タスク固有のグローバルトピック情報を教師なしの方法で活用することを検討する。
論文 参考訳(メタデータ) (2021-04-11T07:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。