論文の概要: BOW: Bottlenecked Next Word Exploration
- arxiv url: http://arxiv.org/abs/2506.13502v1
- Date: Mon, 16 Jun 2025 13:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.602684
- Title: BOW: Bottlenecked Next Word Exploration
- Title(参考訳): BOW:次の単語探索は失敗に終わった
- Authors: Ming Shen, Zhikun Xu, Xiao Ye, Jacob Dineen, Ben Zhou,
- Abstract要約: Next-word Prediction (NWP)は、強い表面レベルの流速を提供するが、堅牢な推論のサポートを欠いていることが多い。
推論ボトルネックを導入してNWPを再考する新しいRLフレームワークであるBOW(Bottlenecked Next Word Explorion)を提案する。
BOWはバニラNWPに代わる効果的でスケーラブルな代替品として機能する。
- 参考スコア(独自算出の注目度): 6.951003387516379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are typically trained via next-word prediction (NWP), which provides strong surface-level fluency but often lacks support for robust reasoning. We propose BOttlenecked next Word exploration (BOW), a novel RL framework that rethinks NWP by introducing a reasoning bottleneck where a policy model first generates a reasoning path rather than predicting the next token directly, after which a frozen judge model predicts the next token distribution based solely on this reasoning path. We train the policy model using GRPO with rewards that quantify how effectively the reasoning path facilitates next-word recovery. Compared with other continual pretraining baselines, we show that BOW improves both the general and next-word reasoning capabilities of the base model, evaluated on various benchmarks. Our findings show that BOW can serve as an effective and scalable alternative to vanilla NWP.
- Abstract(参考訳): 大規模言語モデル (LLM) は通常、強い表面レベルの流速を提供するが、頑健な推論のサポートを欠く、next-word prediction (NWP) を通じて訓練される。
提案するBOW(Bottlenecked Next Word Exploring)は,政策モデルが直接次のトークンを予測するのではなく,最初に推論経路を生成するような推論ボトルネックを導入し,その後,凍結判定モデルがこの推論経路のみに基づいて次のトークン分布を予測することによって,NWPを再考する新しいRLフレームワークである。
我々はGRPOを用いてポリシーモデルを訓練し、推論経路が次の単語の回復をいかに効果的に促進するかを定量化する。
他の継続事前学習ベースラインと比較して、BOWはベースモデルの一般および次単語推論能力を改善し、様々なベンチマークで評価する。
以上の結果から,BOWはバニラNWPに代わる効果的でスケーラブルな代替手段である可能性が示唆された。
関連論文リスト
- ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Innovative Bert-based Reranking Language Models for Speech Recognition [15.762742686665652]
自動音声認識(ASR)によるN-best仮説のランク付けに用いるBERTに基づく文脈化言語モデル(LM)の新たなインスタンス化を提案する。
そこで我々は,BERTを予測問題とするN-best仮説を,N-best仮説(PBERTにより代入された)を前提として,最も低い単語誤り率(WER)を持つオラクル仮説を予測することを目的とする。
特に,N-best仮説の再評価においてPBERTを支援するために,タスク固有のグローバルトピック情報を教師なしの方法で活用することを検討する。
論文 参考訳(メタデータ) (2021-04-11T07:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。