論文の概要: Harnessing Bounded-Support Evolution Strategies for Policy Refinement
- arxiv url: http://arxiv.org/abs/2511.09923v1
- Date: Fri, 14 Nov 2025 01:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.583077
- Title: Harnessing Bounded-Support Evolution Strategies for Policy Refinement
- Title(参考訳): 政策リファインメントのためのバウンド・サポーター進化戦略のハーネス化
- Authors: Ethan Hirschowitz, Fabio Ramos,
- Abstract要約: 三角分布ES対は、安定で、並列化可能で、勾配のない更新を提供する中心ランク有限差分推定器を持つ三角形雑音に有界である。
2段階のパイプライン -- PPO事前トレーニングとTD-ESの改良 -- では、早期サンプル効率を維持しながら、堅牢な後期ステージゲインを実現している。
ロボット操作タスクのスイート全体で、TD-ESはPPOと比較して26.5%の成功率を高め、信頼性の高い改良のための単純で計算軽量なパスを提供する。
- 参考スコア(独自算出の注目度): 3.3656696418661975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving competent robot policies with on-policy RL is often hampered by noisy, low-signal gradients. We revisit Evolution Strategies (ES) as a policy-gradient proxy and localize exploration with bounded, antithetic triangular perturbations, suitable for policy refinement. We propose Triangular-Distribution ES (TD-ES) which pairs bounded triangular noise with a centered-rank finite-difference estimator to deliver stable, parallelizable, gradient-free updates. In a two-stage pipeline -- PPO pretraining followed by TD-ES refinement -- this preserves early sample efficiency while enabling robust late-stage gains. Across a suite of robotic manipulation tasks, TD-ES raises success rates by 26.5% relative to PPO and greatly reduces variance, offering a simple, compute-light path to reliable refinement.
- Abstract(参考訳): オンデマンドRLによる有能なロボットポリシーの改善は、ノイズの多い低信号勾配によってしばしば妨げられる。
我々は、政策段階のプロキシとして進化戦略(ES)を再考し、政策の洗練に適した、有界で反テーゼ的な三角形の摂動による探索を行う。
本稿では, 安定, 並列化可能, 勾配のない更新を実現するために, 中心位有限差分推定器と有界な三角形雑音をペアリングする三角形分布ES(TD-ES)を提案する。
2段階のパイプライン -- PPO事前トレーニングとTD-ESの改良 -- では、早期サンプル効率を維持しながら、堅牢な後期ステージゲインを実現している。
ロボット操作タスクのスイート全体で、TD-ESはPPOと比較して26.5%の成功率を高め、信頼性の高い改良のための単純で計算軽量なパスを提供する。
関連論文リスト
- GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning [45.51804571136028]
強化学習(RL)は、大規模言語モデル(LLM)における推論の強化の中心となっている。
Slow-Fast Policy Optimization (SFPO)は,各ステップを3段階に分解することで,これらの制限に対処する,シンプルかつ効率的なフレームワークである。
SFPOは安定性を継続的に改善し、ロールアウトを低減し、推論RLトレーニングの収束を加速する。
論文 参考訳(メタデータ) (2025-10-05T07:22:54Z) - Sampling Complexity of TD and PPO in RKHS [32.00317289826905]
機能空間の観点からPPO(Proximal Policy Optimization)を再考する。
我々の結果は、PPOを有限次元の仮定を超えた厳密な理論上の足場に置く。
論文 参考訳(メタデータ) (2025-09-29T16:19:19Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。