論文の概要: Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
- arxiv url: http://arxiv.org/abs/2510.04996v1
- Date: Mon, 06 Oct 2025 16:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.987276
- Title: Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
- Title(参考訳): Reinforce-Ada:Reinforce-Style LLMトレーニングのための適応サンプリングフレームワーク
- Authors: Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang,
- Abstract要約: 大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
- 参考スコア(独自算出の注目度): 47.26632817047513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
- Abstract(参考訳): 大規模言語モデル(LLM)に推論タスクに適用した強化学習は、プロンプト間の応答の固定的および均一なサンプリングに起因する不安定な勾配推定によってボトルネックとなることが多い。
GVM-RAFTのような以前の研究は、予算制約の下で確率的勾配分散を最小限に抑えるために、プロンプト毎の推論予算を動的に割り当てることによってこの問題に対処した。
この知見にインスパイアされたReinforce-Adaは、LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであり、最も不確実性や学習可能性の高いプロンプトへのサンプリング作業を継続的に再配置する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおいて推定とサンプリングをインターリーブし、十分な信号が収集されると自動的にサンプリングを停止する。
更新を安定させるために,適応サンプリングフェーズ上に集約された大域統計を用いて,報酬の多様性を強制した固定サイズグループを作成し,有利なベースラインを計算する。
複数のモデルアーキテクチャと推論ベンチマークによる実証的な結果から、Reinforce-AdaはGRPOと比較して収束を加速し、最終的な性能を改善する。
本研究は,多変量対応型適応型データキュレーションによる推論可能LLMの効率的かつ信頼性の高い強化学習の実現における中心的な役割を強調した。
コードはhttps://github.com/RLHFlow/Reinforce-Ada.comで入手できる。
関連論文リスト
- PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training [9.093854840532062]
PITAはLLMのトークン生成に直接好みフィードバックを統合する新しいフレームワークである。
PITAは、微調整をせずに、推論時にトークン確率を変更するための、小さな嗜好に基づくガイダンスポリシーを学習する。
我々は,数学的推論や感情分類など,多種多様なタスクにまたがるPITAを評価する。
論文 参考訳(メタデータ) (2025-07-26T21:46:32Z) - Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL [20.177871969184004]
チェーン・オブ・シント(CoT)推論は、モデルが中間的推論ステップを生成する必要がある潜在変数問題として形式化することができる。
反復的な報酬ランクの微調整のような以前のアプローチは、難易度と収束挙動の変動を考慮しない。
本稿では,計算予算制約下での勾配分散を最小限に抑えるために,プロンプト固有の動的サンプル割当戦略であるGVMRAFTを提案する。
論文 参考訳(メタデータ) (2025-05-05T06:26:00Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。