論文の概要: A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce
- arxiv url: http://arxiv.org/abs/2504.11343v1
- Date: Tue, 15 Apr 2025 16:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:31.585233
- Title: A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce
- Title(参考訳): LLM推論へのミニマリストアプローチ:リジェクションサンプリングから強化へ
- Authors: Wei Xiong, Jiarui Yao, Yuhui Xu, Bo Pang, Lei Wang, Doyen Sahoo, Junnan Li, Nan Jiang, Tong Zhang, Caiming Xiong, Hanze Dong,
- Abstract要約: 我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
- 参考スコア(独自算出の注目度): 68.99924691391048
- License:
- Abstract: Reinforcement learning (RL) has become a prevailing approach for fine-tuning large language models (LLMs) on complex reasoning tasks. Among recent methods, GRPO stands out for its empirical success in training models such as DeepSeek-R1, yet the sources of its effectiveness remain poorly understood. In this work, we revisit GRPO from a reinforce-like algorithm perspective and analyze its core components. Surprisingly, we find that a simple rejection sampling baseline, RAFT, which trains only on positively rewarded samples, yields competitive performance than GRPO and PPO. Our ablation studies reveal that GRPO's main advantage arises from discarding prompts with entirely incorrect responses, rather than from its reward normalization. Motivated by this insight, we propose Reinforce-Rej, a minimal extension of policy gradient that filters both entirely incorrect and entirely correct samples. Reinforce-Rej improves KL efficiency and stability, serving as a lightweight yet effective alternative to more complex RL algorithms. We advocate RAFT as a robust and interpretable baseline, and suggest that future advances should focus on more principled designs for incorporating negative samples, rather than relying on them indiscriminately. Our findings provide guidance for future work in reward-based LLM post-training.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は、複雑な推論タスクにおいて、大規模言語モデル (LLM) を微調整するための一般的なアプローチとなっている。
近年の手法の中で、GRPOはDeepSeek-R1のようなトレーニングモデルで実証的な成功を誇っているが、その効果の源泉はよく分かっていない。
本研究では,GRPOを強化型アルゴリズムの観点から再検討し,そのコアコンポーネントを解析する。
意外なことに、正の報酬を得たサンプルのみを訓練する単純な拒絶サンプリングベースラインであるRAFTは、GRPOやPPOよりも競争性能が高い。
我々のアブレーション研究では、GRPOの主な利点は報酬の正規化からではなく、完全に不適切な反応でプロンプトを破棄することにあることが明らかとなった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
Reinforce-RejはKL効率と安定性を改善し、より複雑なRLアルゴリズムの軽量で効果的な代替手段として機能する。
我々はRAFTを頑健で解釈可能なベースラインとして提唱し、将来の進歩は非差別に頼らず、負のサンプルを組み込むためのより原則的な設計に焦点をあてるべきであることを示唆している。
本研究は,報奨型LLMポストトレーニングにおける今後の取り組みの指針を提供する。
関連論文リスト
- Entropy-Regularized Process Reward Model [30.279394036823092]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Policy Filtration in RLHF to Fine-Tune LLM for Code Generation [13.2216273705657]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)が指示に従い、無害な応答を提供するのを助ける重要な手法の1つである。
直接的なポリシー最適化手法は存在するが、最先端のLCMはRLベースの手法(通常はPPO)をRLHFに導入し、優先データから学習した報酬モデルによって導かれる良い応答を生成するようにポリシーを訓練する。
報酬モデルの信頼性は、異なる報酬が割り当てられた応答によって異なることがわかった。
これにより、報酬が信頼できないサンプルをフィルタリングし、政策学習時の信号対雑音比を改善する動機付けとなる。
論文 参考訳(メタデータ) (2024-09-11T02:40:38Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。