論文の概要: ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.02834v1
- Date: Thu, 03 Jul 2025 17:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.784771
- Title: ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning
- Title(参考訳): ExPO:自己説明型強化学習によるハード推論の解錠
- Authors: Ruiyang Zhou, Shuozhe Li, Amy Zhang, Liu Leqi,
- Abstract要約: 強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。
GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。
提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
- 参考スコア(独自算出の注目度): 12.83211408922535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models have been driven by reinforcement learning (RL)-style post-training, which improves reasoning by optimizing model outputs based on reward or preference signals. GRPO-style approaches implement this by using self-generated samples labeled by an outcome-based verifier. However, these methods depend heavily on the model's initial ability to produce positive samples. They primarily refine what the model already knows (distribution sharpening) rather than enabling the model to solve problems where it initially fails. This limitation is especially problematic in early-stage RL training and on challenging reasoning tasks, where positive samples are unlikely to be generated. To unlock reasoning ability in such settings, the model must explore new reasoning trajectories beyond its current output distribution. Such exploration requires access to sufficiently good positive samples to guide the learning. While expert demonstrations seem like a natural solution, we find that they are often ineffective in RL post-training. Instead, we identify two key properties of effective positive samples: they should (1) be likely under the current policy, and (2) increase the model's likelihood of predicting the correct answer. Based on these insights, we propose $\textbf{Self-Explanation Policy Optimization (ExPO)}$-a simple and modular framework that generates such samples by conditioning on the ground-truth answer. ExPO enables efficient exploration and guides the model to produce reasoning trajectories more aligned with its policy than expert-written CoTs, while ensuring higher quality than its own (incorrect) samples. Experiments show that ExPO improves both learning efficiency and final performance on reasoning benchmarks, surpassing expert-demonstration-based methods in challenging settings such as MATH level-5, where the model initially struggles the most.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する強化学習(RL)スタイルのポストトレーニングによって推進されている。
GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。
しかし、これらの手法はモデルの最初の正のサンプルを生成する能力に大きく依存する。
彼らはまず、モデルが最初に失敗する問題の解決を可能にするのではなく、モデルが既に知っていることを洗練する(分配のシャープ化)。
この制限は、初期のRLトレーニングや、正のサンプルが生成されそうにない挑戦的推論タスクにおいて特に問題となる。
このような設定で推論能力を解き放つためには、モデルは現在の出力分布を超える新たな推論軌道を探さなければならない。
このような探索は、学習を導くのに十分な良い正のサンプルにアクセスする必要がある。
専門家によるデモンストレーションは自然な解決策に思えるが、RLのポストトレーニングでは効果がないことがよく分かる。
その代わり、有効な正のサンプルの2つの重要な特性を同定する:(1)現在の方針の下では可能性があり、(2)正しい解を予測できる確率を高める。
これらの知見に基づいて,本論文では,基本的回答を条件に,そのようなサンプルを生成するシンプルでモジュール化されたフレームワークとして,$\textbf{Self-Explanation Policy Optimization (ExPO)を提案する。
ExPOは効率的な探索を可能にし、専門家によって書かれたCoTよりも、より適切な推論軌道を生成するとともに、自身の(正しくない)サンプルよりも高い品質を確保する。
実験によると、ExPOは推論ベンチマークにおける学習効率と最終性能の両方を改善し、MATHレベル5のような挑戦的な設定において専門家による証明に基づく手法を超越している。
関連論文リスト
- Generalist Reward Models: Found Inside Large Language Models [50.7432354447554]
我々は,従来の次世代予測によって訓練されたLarge Language Models (LLM) の中に,強力な報酬モデルが存在することを示す。
この内因性報酬は、オフライン逆強化学習によって学習された報酬関数ではないことを実証する。
また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つポリシーにつながることを証明した。
論文 参考訳(メタデータ) (2025-06-29T13:45:54Z) - Incentivizing LLMs to Self-Verify Their Answers [20.2584779107763]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
自明な回答を自己検証するために LLM をインセンティブとするフレームワークを提案する。
我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T06:54:29Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - InitialGAN: A Language GAN with Completely Random Initialization [7.642043456676739]
GAN(Generative Adversarial Networks)は、悪名高い露出バイアス問題に取り組む可能性がある。
既存の言語 GAN では、REINFORCE や連続緩和といった推定器を使って単語の確率をモデル化している。
本研究では,これらの問題に対処する手法として,ドロップアウトサンプリングと完全正規化LSTMの2つを提案する。
論文 参考訳(メタデータ) (2022-08-04T08:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。