論文の概要: Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance
- arxiv url: http://arxiv.org/abs/2605.15012v1
- Date: Thu, 14 May 2026 16:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.93666
- Title: Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance
- Title(参考訳): ランダム選択Few-Shot Guidanceによる検証可能なリワードによる強化学習の促進
- Authors: Kai Yan, Alexander G. Schwing, Yu-Xiong Wang,
- Abstract要約: 実演誘導型RLVRアルゴリズムであるFESTを提案する。
SFTデータセットからランダムに選択された128のデモで、魅力的な結果が得られる。
この成功のためには、教師付き信号、オン・ポリケーション信号、および数ショットのSFTデータセット上の減衰重みの3つのコンポーネントが不可欠であることがわかった。
- 参考スコア(独自算出の注目度): 117.2119290254454
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has achieved great success in developing Large Language Models (LLMs) with chain-of-thought rollouts for many tasks such as math and coding. Nevertheless, RLVR struggles with sample efficiency on difficult problems where correct rollouts are hard to generate. Prior works propose to address this issue via demonstration-guided RLVR, i.e., to conduct Supervised FineTuning (SFT) when RL fails; however, SFT often requires a lot of data, which can be expensive to acquire. In this paper, we propose FEST, a FEw-ShoT demonstration-guided RLVR algorithm. It attains compelling results with only 128 demonstrations randomly selected from an SFT dataset. We find that three components are vital for the success: supervised signal, on-policy signal, and decaying weights on the few-shot SFT dataset to prevent overfitting from multiple-epoch training. On several benchmarks, FEST outperforms baselines with magnitudes less SFT data, even matching their performance with full dataset.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコーディングなど、多くのタスクに連鎖したロールアウトを伴うLarge Language Models (LLM) の開発において、大きな成功を収めている。
それでもRLVRは、正しいロールアウトを生成できない難しい問題に対して、サンプル効率に苦慮している。
以前の研究は、実演誘導RLVR(すなわち、RLが故障した場合にスーパーバイザードファインタニング(SFT)を実行すること)を通じてこの問題に対処することを提案したが、SFTはしばしば多くのデータを必要としており、取得にはコストがかかる。
本稿では,FEw-ShoTデモ誘導RLVRアルゴリズムであるFESTを提案する。
SFTデータセットからランダムに選択された128のデモで、魅力的な結果が得られる。
この成功には3つのコンポーネントが不可欠であることが判明した。教師付き信号、オンライン信号、および数発のSFTデータセットの減衰重み付けにより、マルチエポックトレーニングの過度な適合を防止する。
いくつかのベンチマークでは、FESTはSFTデータよりも桁違いに少ないベースラインでパフォーマンスを向上し、完全なデータセットとパフォーマンスを比較できる。
関連論文リスト
- Decouple before Integration: Test-time Synthesis of SFT and RLVR Task Vectors [26.233592394784868]
タスクベクトルのレンズを用いてSFTとRLVRを解析する。
本稿では,SFT と RLVR のチェックポイントを独立してトレーニングできるように,Decoupled Test-time Synthesis (DoTS) を提案する。
論文 参考訳(メタデータ) (2026-05-01T12:20:44Z) - Theoretical Perspectives on Data Quality and Synergistic Effects in Pre- and Post-Training Reasoning Models [56.12341509545198]
大規模言語モデル(LLM)は、大量のデータセット上で事前訓練され、後に教師付き微調整(SFT)または強化学習(RL)を介して指導訓練される。
ベストプラクティスは大規模で多様な事前訓練データを強調するが、ポストトレーニングは異なる。
線形回帰のための文脈内重み予測タスクで訓練された変圧器を理論的に解析する。
論文 参考訳(メタデータ) (2026-03-01T21:58:09Z) - Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning [49.22815446849924]
大規模言語モデル(LLM)は多段階推論を必要とする問題に悩まされることが多い。
小規模なオープンソースモデルでは、正しいソリューションがほとんどサンプリングされない場合には、RLVR(Reinforcement Learning with Verifiable Rewards)が失敗する。
問題解決を論理的「行動」の系列を生成するものとして再構成するフレームワークとして, SRL(Supervised Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2025-10-29T22:05:08Z) - Utility-Diversity Aware Online Batch Selection for LLM Supervised Fine-tuning [49.04912820721943]
Supervised Fine-tuning (SFT) は計算コストが高く、時にはオーバーフィットやバイアス増幅に悩まされる。
本研究は、トレーニングプロセス中にサンプルを動的にスコア付け、フィルタリングするオンラインバッチ選択ファミリについて研究する。
SFTにおける効率的なオンラインバッチ選択のためのフレームワークである textbfUDS (Utility-Diversity Sampling) を開発した。
論文 参考訳(メタデータ) (2025-10-19T15:32:01Z) - RLSR: Reinforcement Learning with Supervised Reward Outperforms SFT in Instruction Following [4.6740998081727385]
本稿では,SFT を RLSR に置き換えて,RL フレームワークにおける拡張 SFT データセットを活用することを提案する。
RLSRでは、ベースモデルは各プロンプトに対して複数の応答を生成し、生成した応答と人ラベルされた応答のセマンティック埋め込み空間におけるコサイン類似性として報酬スコアを算出する。
論文 参考訳(メタデータ) (2025-10-16T01:13:14Z) - Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead [20.446287312285648]
我々は,高いSFTスコアがRL後の性能向上に寄与するかどうかを検討した。
高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。
本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
論文 参考訳(メタデータ) (2025-10-02T02:57:00Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。