論文の概要: Learning to Reason with Mixture of Tokens
- arxiv url: http://arxiv.org/abs/2509.21482v1
- Date: Thu, 25 Sep 2025 19:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.952891
- Title: Learning to Reason with Mixture of Tokens
- Title(参考訳): 剣の混合による推論の学習
- Authors: Adit Jain, Brendan Rappazzo,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)推論能力を改善するための主要なアプローチとなっている。
本稿では,既存のMoT-Gアプローチを一般化するフレームワークを提案する。
Qwen2.5-1.5Bモデルと比較すると,MoT-G法は10タスク中7タスクで5-35パーセント向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a leading approach for improving large language model (LLM) reasoning capabilities. Most current methods follow variants of Group Relative Policy Optimization, which samples multiple reasoning completions, scores them relative to each other, and adjusts the policy accordingly. However, these approaches invariably sample discrete tokens at each reasoning step, discarding the rich distributional information in the model's probability distribution over candidate tokens. While preserving and utilizing this distributional information has proven beneficial in non-RL settings, current RLVR methods seem to be unnecessarily constraining the reasoning search space by not using this information. To address this limitation, we investigate mixture-of-token generation (MoT-G) in RLVR. We present a unified framework that generalizes existing MoT-G approaches, including existing training-free methods that construct mixture embeddings as weighted sums over token embeddings, and extend RLVR to operate directly in this continuous mixture space for generating chain-of-thought. Evaluating two MoT-G variants on Reasoning-Gym, a suite of reasoning-intensive language tasks, we find that MoT--G methods achieve substantial improvements (5--35 \% gains on 7 out of 10 tasks) compared to standard decoding with the Qwen2.5-1.5B model, while reaching comparable accuracy with half the number of trajectories, suggesting improved training efficiency. Through comprehensive hidden-state and token-level analyses, we provide evidence that MoT--G's benefits may stem from its ability to maintain higher hidden-state entropy throughout the reasoning process and promote exploration in token space.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)推論能力を改善するための主要なアプローチとなっている。
グループ相対的政策最適化(Group Relative Policy Optimization)は、複数の推論完了をサンプリングし、相対的に評価し、それに応じてポリシーを調整する手法である。
しかし、これらのアプローチは各推論ステップで必ず離散トークンをサンプリングし、候補トークン上のモデルの確率分布におけるリッチな分布情報を破棄する。
この分布情報の保存と利用は、非RL設定で有益であることが証明されているが、現在のRLVR法は、この情報を使用しないことによって、探索空間を不必要に制限しているようである。
この制限に対処するため、RLVRにおける混合トケン生成(MoT-G)について検討する。
本稿では,既存のMoT-Gアプローチを一般化する統一フレームワークを提案する。これには,トークン埋め込みよりも重み付け和として混合埋め込みを構成する既存のトレーニングフリーメソッドが含まれ,RLVRを拡張して,チェーン・オブ・シントを生成するための連続混合空間で直接運用する。
推論集約型言語タスクのスイートであるReasoning-Gym上での2つのMoT-G変種を評価することで,Qwen2.5-1.5Bモデルによる標準復号法と比較して,MoT-G法は大幅に改善され,トレーニング効率が向上した。
包括的隠蔽状態およびトークンレベルの分析を通じて、MoT-Gの利点は、推論過程を通して高い隠蔽状態のエントロピーを維持し、トークン空間での探索を促進する能力から生じる可能性があることを示す。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Metastable Dynamics of Chain-of-Thought Reasoning: Provable Benefits of Search, RL and Distillation [40.861314212279474]
メタスタブルマルコフプロセスとしてチェーン・オブ・シント(CoT)生成による推論時間計算について検討する。
スパースエッジに報酬を与える検索プロトコルの実装は、異なるクラスタに到達するための期待するステップ数を減らし、CoTを改善することを実証する。
また,検索によって得られる情報を利用して,より優れた推論モデルが得られることを示す。
論文 参考訳(メタデータ) (2025-02-02T18:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。