論文の概要: Let it Calm: Exploratory Annealed Decoding for Verifiable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.05251v1
- Date: Mon, 06 Oct 2025 18:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.936764
- Title: Let it Calm: Exploratory Annealed Decoding for Verifiable Reinforcement Learning
- Title(参考訳): 証明可能な強化学習のための探索的アニールデコーディング
- Authors: Chenghao Yang, Lin Gui, Chenxiao Yang, Victor Veitch, Lizhu Zhang, Zhuokai Zhao,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムである。
標準の固定温度サンプリングは単純であるが、高温がサンプルの品質を低下させ、低温が発見を制限するため、これらの競合する要求のバランスをとるのに苦労している。
我々は、早期トークンに最も影響のある探索的アニールデコーディング(EAD)という、よりシンプルで効果的な戦略を提案する。
- 参考スコア(独自算出の注目度): 29.277754405630205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) is a powerful paradigm for enhancing the reasoning capabilities of large language models (LLMs), yet its success hinges on effective exploration. An ideal exploration strategy must navigate two fundamental challenges: it must preserve sample quality while also ensuring training stability. While standard fixed-temperature sampling is simple, it struggles to balance these competing demands, as high temperatures degrade sample quality and low temperatures limit discovery. In this work, we propose a simpler and more effective strategy, Exploratory Annealed Decoding (EAD), grounded in the insight that exploration is most impactful on early tokens which define a sequence's semantic direction. EAD implements an intuitive **explore-at-the-beginning, exploit-at-the-end** strategy by annealing the sampling temperature from high to low during generation. This dynamic schedule encourages meaningful, high-level diversity at the start, then gradually lowers the temperature to preserve sample quality and keep the sampling distribution close to the target policy, which is essential for stable training. We demonstrate that EAD is a lightweight, plug-and-play method that significantly improves sample efficiency, consistently outperforming fixed-temperature sampling across various RLVR algorithms and model sizes. Our work suggests that aligning exploration with the natural dynamics of sequential generation offers a robust path to improving LLM reasoning.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムである。
理想的な探索戦略は、サンプルの品質を維持しながら、トレーニングの安定性を確保するという、2つの基本的な課題をナビゲートする必要があります。
標準的な固定温度サンプリングは単純だが、高温がサンプルの品質を低下させ、低温が発見を制限するため、これらの競合する要求のバランスをとるのに苦労している。
本研究では,シーケンスのセマンティックな方向を定義する初期トークンに探索が最も影響を与えるという知見に基づいて,よりシンプルで効果的な探索的アナルドデコーディング(EAD)を提案する。
EADは、生成時にサンプリング温度を高から低に加熱することにより、直感的に**explore-at-beginning, exploit-at-the-end*戦略を実装している。
この動的スケジュールは、最初から意味のある高レベルな多様性を奨励し、徐々に温度を下げてサンプル品質を保ち、安定したトレーニングに不可欠なターゲットポリシーに近いサンプリング分布を維持する。
EADは軽量なプラグ・アンド・プレイ方式であり,サンプル効率を著しく向上し,RLVRアルゴリズムやモデルサイズにまたがる固定温度サンプリングよりも一貫して優れることを示した。
我々の研究は、シーケンシャルジェネレーションの自然力学と探索の整合性は、LLM推論を改善するための堅牢な経路をもたらすことを示唆している。
関連論文リスト
- Control the Temperature: Selective Sampling for Diverse and High-Quality LLM Outputs [26.477037145228735]
温度に基づくサンプリングは多様性を高めるための一般的な戦略である。
しかし、例えば min-$p$ や top-$p$ のような制御されていない高温サンプリングは推論品質を低下させる。
そこで本研究では,高温サンプリングとグリーディを切り替える方法であるtextbfselective sampleを提案する。
論文 参考訳(メタデータ) (2025-09-20T15:16:27Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization [7.531052649961168]
検証可能な報酬付き強化学習(RLVR)は、最近、大規模言語モデル(LLM)の推論能力を進歩させた。
サンプル中心の観点からRLVRを調査し,プログレッシブ最適化手法の枠組みであるLPPOを導入する。
私たちの仕事は、データボリュームを単にスケールアップするのではなく、小さな信頼性のある高品質なデモを最大限に活用する方法という、重要な問題に対処しています。
論文 参考訳(メタデータ) (2025-07-09T06:05:28Z) - Ctrl-Z Sampling: Diffusion Sampling with Controlled Random Zigzag Explorations [17.357140159249496]
本稿では,局所的な急激な最大値の検出と回避を適応的に行う新しいサンプリング戦略を提案する。
Ctrl-Zサンプリングは生成品質を著しく向上するが,元のNFEの7.72倍程度しか必要としないことを示す。
論文 参考訳(メタデータ) (2025-06-25T10:01:00Z) - From Easy to Hard: Progressive Active Learning Framework for Infrared Small Target Detection with Single Point Supervision [18.555485444818835]
単一点監視のための革新的プログレッシブアクティブラーニング(PAL)フレームワークを構築した。
簡単なサンプルを自動選択することに焦点を当てたモデル事前開始概念を提案する。
PALフレームワークを搭載した既存のSIRST検出ネットワークは、複数の公開データセットに対して、最先端(SOTA)の結果を得たことを示す。
論文 参考訳(メタデータ) (2024-12-15T11:08:49Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Rethinking Sampling Strategies for Unsupervised Person Re-identification [59.47536050785886]
我々は,同じフレームワーク下での各種サンプリング戦略と損失関数のパフォーマンス差の理由を解析した。
グループサンプリングを提案し、同じクラスのサンプルをグループに集める。
Market-1501、DukeMTMC-reID、MSMT17の実験は、グループサンプリングが最先端の手法に匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-07T05:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。