論文の概要: Exploring Multi-Temperature Strategies for Token- and Rollout-Level Control in RLVR
- arxiv url: http://arxiv.org/abs/2510.08892v1
- Date: Fri, 10 Oct 2025 01:11:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.909314
- Title: Exploring Multi-Temperature Strategies for Token- and Rollout-Level Control in RLVR
- Title(参考訳): RLVRにおけるToken- and Rollout-Level制御のためのマルチ温度戦略の探索
- Authors: Haomin Zhuang, Yujun Zhou, Taicheng Guo, Yue Huang, Fangxu Liu, Kai Song, Xiangliang Zhang,
- Abstract要約: 本稿では,異なるトークンに対して異なる温度設定を適用することで,サンプリング中の探索を明示的に促進する補完的アプローチを提案する。
具体的には, 知識トークンの温度を低く保ち, 事実の正しさを保ちながら, 探索を活発に進めるために, 推論トークンの高温を用いる。
- 参考スコア(独自算出の注目度): 32.766524277613826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning has demonstrated substantial improvements in the reasoning abilities of Large Language Models (LLMs), exhibiting significant applicability across various domains. Recent research has identified that tokens within LLMs play distinct roles during reasoning tasks, categorizing them into high-entropy reasoning tokens and low-entropy knowledge tokens. Prior approaches have typically focused on restricting updates to indirectly encourage exploration, yet they do not explicitly facilitate exploratory behavior during the token generation stage itself. In this work, we introduce a complementary approach that explicitly promotes exploration during sampling by applying distinct temperature settings for different token types. Specifically, our method employs higher temperatures for reasoning tokens to actively encourage exploration, while retaining lower temperatures for knowledge tokens to maintain factual correctness. Furthermore, we systematically investigate various multi-temperature scheduling strategies and their impacts within reinforcement learning contexts. Empirical evaluations on several reasoning benchmarks demonstrate that our approach significantly enhances the reasoning performance of LLMs. The code is available at https://github.com/zhmzm/Multi_Temperature_Verl.git.
- Abstract(参考訳): 強化学習は、Large Language Models (LLM) の推論能力を大幅に改善し、様々な領域に適用可能であることを示した。
近年の研究では、LLM内のトークンは推論タスクにおいて異なる役割を担い、それらを高エントロピー推論トークンと低エントロピー知識トークンに分類している。
従来のアプローチでは、通常、間接的に探索を奨励するために更新を制限することに重点を置いていたが、トークン生成段階自体の探索的振る舞いを明示的に促進するものではない。
本研究では,異なるトークンに対して異なる温度設定を適用することで,サンプリング中の探索を明示的に促進する補完的アプローチを提案する。
具体的には, 知識トークンの温度を低く保ち, 事実の正しさを保ちながら, 探索を活発に進めるために, 推論トークンの高温を用いる。
さらに,強化学習環境における多温度スケジューリング戦略とその影響を系統的に検討した。
提案手法は, LLMの推論性能を大幅に向上させることを示す。
コードはhttps://github.com/zhmzm/Multi_Temperature_Verl.gitで公開されている。
関連論文リスト
- Look Inward to Explore Outward: Learning Temperature Policy from LLM Internal States via Hierarchical RL [30.357975264905978]
生成時のサンプリング温度の制御を学習する階層的強化学習フレームワークを提案する。
各復号ステップでは、モデルがその隠れた状態に基づいて温度を選択し、その結果の分布から次のトークンをサンプリングする。
温度とトークンのポリシーは、座標上昇スキームを用いて下流の報酬から共同で最適化される。
論文 参考訳(メタデータ) (2026-02-13T15:42:59Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Efficient Reinforcement Learning with Semantic and Token Entropy for LLM Reasoning [30.889495810312624]
本稿では,意味レベルとトークンレベルの両方でエントロピー信号を活用して推論を改善する,効率的な強化学習フレームワークを提案する。
データ構造とアルゴリズム設計を協調的に最適化することにより,エントロピー崩壊を効果的に軽減し,推論を強化する。
論文 参考訳(メタデータ) (2025-12-04T01:09:17Z) - LLM-Oriented Token-Adaptive Knowledge Distillation [64.08412563818662]
本稿では,各トークンのリアルタイム学習状態に蒸留プロセスを適用する新しいフレームワークを提案する。
AdaKDは、2つの相乗的加群からなる。
プラグアンドプレイフレームワークとして、AdaKDは複数のモデルアーキテクチャやベンチマーク上で様々な蒸留方法の性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T16:55:07Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR [28.888781530351395]
本稿では,マルチトークン制約と同期更新を備えたエントロピー対応RLVRアプローチであるArcherを提案する。
いくつかの数学的推論およびコード生成ベンチマークの実験結果から,本手法が従来のRLVR法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-07-21T16:34:01Z) - Reasoning with Exploration: An Entropy Perspective on Reinforcement Learning for LLMs [112.40801692473723]
強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文 参考訳(メタデータ) (2025-06-17T17:54:03Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。