論文の概要: GDEPO: Group Dual-dynamic and Equal-right-advantage Policy Optimization with Enhanced Training Data Utilization for Sample-Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.06795v1
- Date: Sun, 11 Jan 2026 07:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.995178
- Title: GDEPO: Group Dual-dynamic and Equal-right-advantage Policy Optimization with Enhanced Training Data Utilization for Sample-Constrained Reinforcement Learning
- Title(参考訳): GDEPO: サンプル制約強化学習のための訓練データ活用の強化によるグループ二重力学・等右アドバンテージ政策最適化
- Authors: Zhengqing Yan, Xinyang Liu, Yi Zhang, Fan Guo, Yao Liu, Junchen Wan, Kang Song,
- Abstract要約: ATP(Automated Theorem Proving)は人工知能(AI)の基本課題である
我々はGDEPO(Group Dual-dynamic and Equal-right-Advantage Policy Optimization)を提案する。
GDEPOには3つのコアメカニズムがある: 1) 有効証明が見つかるまで無効なバッチを再サンプリングする動的追加サンプリング、2) 優位関数の符号をその大きさ(補助的な報酬によって変調される)から切り離して安定かつ正しいポリシー更新を保証する、3) 動的追加イテレーション、そして、最初は失敗するが、最終的にはサンプルを成功させ、挑戦的なケースでの学習を加速する。
- 参考スコア(独自算出の注目度): 14.111530312590531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated Theorem Proving (ATP) represents a fundamental challenge in Artificial Intelligence (AI), requiring the construction of machine-verifiable proofs in formal languages such as Lean to evaluate AI reasoning capabilities. Reinforcement learning (RL), particularly the high-performance Group Relative Policy Optimization (GRPO) algorithm, has emerged as a mainstream approach for this task. However, in ATP scenarios, GRPO faces two critical issues: when composite rewards are used, its relative advantage estimation may conflict with the binary feedback from the formal verifier; meanwhile, its static sampling strategy may discard entire batches of data if no valid proof is found, resulting in zero contribution to model updates and significant data waste. To address these limitations, we propose Group Dual-dynamic and Equal-right-advantage Policy Optimization (GDEPO), a method incorporating three core mechanisms: 1) dynamic additional sampling, which resamples invalid batches until a valid proof is discovered; 2) equal-right advantage, decoupling the sign of the advantage function (based on correctness) from its magnitude (modulated by auxiliary rewards) to ensure stable and correct policy updates; and 3) dynamic additional iterations, applying extra gradient steps to initially failed but eventually successful samples to accelerate learning on challenging cases. Experiments conducted on three datasets of varying difficulty (MinF2F-test, MathOlympiadBench, PutnamBench) confirm the effectiveness of GDEPO, while ablation studies validate the necessity of its synergistic components. The proposed method enhances data utilization and optimization efficiency, offering a novel training paradigm for ATP.
- Abstract(参考訳): ATP(Automated Theorem Proving)は、AI(Artificial Intelligence)における基本的な課題であり、AI推論能力を評価するために、Leanのような形式言語でマシン検証可能な証明を構築する必要がある。
強化学習(RL)、特に高性能なグループ相対政策最適化(GRPO)アルゴリズムがこのタスクの主流のアプローチとして現れている。
しかし、ATPのシナリオでは、GRPOは2つの重要な問題に直面している: 複合報酬を使用する場合、その相対的な優位性推定は形式的検証器からのバイナリフィードバックと矛盾する可能性がある。
これらの制約に対処するため,GDEPO(Group Dual-dynamic and Equal-right-Advantage Policy Optimization)を提案する。
1) 有効証明が見つかるまで無効なバッチを再サンプリングする動的追加サンプリング
2 利益関数(正当性に基づく)の符号をその大きさ(補助的報酬によって表される)から切り離して、安定かつ正しい政策更新を確保する。
3) 動的に追加のイテレーションを行い、最初は失敗に終わったが、最終的にはサンプルを成功させ、挑戦的なケースでの学習を加速した。
各種難易度データセット(MinF2F-test, MathOlympiadBench, PutnamBench)を用いて行った実験により, GDEPOの有効性が確認された。
提案手法はデータ利用率と最適化効率を向上し,ATPの新たなトレーニングパラダイムを提供する。
関連論文リスト
- VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL [38.782188833641676]
GRPOやGSPOのようなグループベースのポリシー最適化手法は、マルチモーダルモデルのトレーニングの標準となっている。
グループ内のすべての応答が同じ報酬を受けると、それらは致命的な急激な消滅問題に悩まされる。
textbfVADEは,オンラインサンプルレベルの難易度を用いたサンプリングフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T08:59:54Z) - EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [41.83677588934301]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。