論文の概要: Exploring Multi-Temperature Strategies for Token- and Rollout-Level Control in RLVR
- arxiv url: http://arxiv.org/abs/2510.08892v1
- Date: Fri, 10 Oct 2025 01:11:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.909314
- Title: Exploring Multi-Temperature Strategies for Token- and Rollout-Level Control in RLVR
- Title(参考訳): RLVRにおけるToken- and Rollout-Level制御のためのマルチ温度戦略の探索
- Authors: Haomin Zhuang, Yujun Zhou, Taicheng Guo, Yue Huang, Fangxu Liu, Kai Song, Xiangliang Zhang,
- Abstract要約: 本稿では,異なるトークンに対して異なる温度設定を適用することで,サンプリング中の探索を明示的に促進する補完的アプローチを提案する。
具体的には, 知識トークンの温度を低く保ち, 事実の正しさを保ちながら, 探索を活発に進めるために, 推論トークンの高温を用いる。
- 参考スコア(独自算出の注目度): 32.766524277613826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning has demonstrated substantial improvements in the reasoning abilities of Large Language Models (LLMs), exhibiting significant applicability across various domains. Recent research has identified that tokens within LLMs play distinct roles during reasoning tasks, categorizing them into high-entropy reasoning tokens and low-entropy knowledge tokens. Prior approaches have typically focused on restricting updates to indirectly encourage exploration, yet they do not explicitly facilitate exploratory behavior during the token generation stage itself. In this work, we introduce a complementary approach that explicitly promotes exploration during sampling by applying distinct temperature settings for different token types. Specifically, our method employs higher temperatures for reasoning tokens to actively encourage exploration, while retaining lower temperatures for knowledge tokens to maintain factual correctness. Furthermore, we systematically investigate various multi-temperature scheduling strategies and their impacts within reinforcement learning contexts. Empirical evaluations on several reasoning benchmarks demonstrate that our approach significantly enhances the reasoning performance of LLMs. The code is available at https://github.com/zhmzm/Multi_Temperature_Verl.git.
- Abstract(参考訳): 強化学習は、Large Language Models (LLM) の推論能力を大幅に改善し、様々な領域に適用可能であることを示した。
近年の研究では、LLM内のトークンは推論タスクにおいて異なる役割を担い、それらを高エントロピー推論トークンと低エントロピー知識トークンに分類している。
従来のアプローチでは、通常、間接的に探索を奨励するために更新を制限することに重点を置いていたが、トークン生成段階自体の探索的振る舞いを明示的に促進するものではない。
本研究では,異なるトークンに対して異なる温度設定を適用することで,サンプリング中の探索を明示的に促進する補完的アプローチを提案する。
具体的には, 知識トークンの温度を低く保ち, 事実の正しさを保ちながら, 探索を活発に進めるために, 推論トークンの高温を用いる。
さらに,強化学習環境における多温度スケジューリング戦略とその影響を系統的に検討した。
提案手法は, LLMの推論性能を大幅に向上させることを示す。
コードはhttps://github.com/zhmzm/Multi_Temperature_Verl.gitで公開されている。
関連論文リスト
- Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR [28.888781530351395]
本稿では,マルチトークン制約と同期更新を備えたエントロピー対応RLVRアプローチであるArcherを提案する。
いくつかの数学的推論およびコード生成ベンチマークの実験結果から,本手法が従来のRLVR法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-07-21T16:34:01Z) - Reasoning with Exploration: An Entropy Perspective on Reinforcement Learning for LLMs [112.40801692473723]
強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文 参考訳(メタデータ) (2025-06-17T17:54:03Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。