論文の概要: Evolutionary Policy Optimization
- arxiv url: http://arxiv.org/abs/2503.19037v2
- Date: Tue, 10 Jun 2025 17:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:39.768574
- Title: Evolutionary Policy Optimization
- Title(参考訳): 進化的政策最適化
- Authors: Jianren Wang, Yifan Su, Abhinav Gupta, Deepak Pathak,
- Abstract要約: オンライン強化学習(RL)アルゴリズムは、高いパフォーマンスとトレーニング安定性のために広く利用されているが、より大きなバッチサイズでスケールするのに苦労している。
本稿では、EAのスケーラビリティと多様性と、政策勾配の性能と安定性を組み合わせたハイブリッドである進化的政策最適化(EPO)を提案する。
- 参考スコア(独自算出の注目度): 47.30139909878251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy reinforcement learning (RL) algorithms are widely used for their strong asymptotic performance and training stability, but they struggle to scale with larger batch sizes, as additional parallel environments yield redundant data due to limited policy-induced diversity. In contrast, Evolutionary Algorithms (EAs) scale naturally and encourage exploration via randomized population-based search, but are often sample-inefficient. We propose Evolutionary Policy Optimization (EPO), a hybrid algorithm that combines the scalability and diversity of EAs with the performance and stability of policy gradients. EPO maintains a population of agents conditioned on latent variables, shares actor-critic network parameters for coherence and memory efficiency, and aggregates diverse experiences into a master agent. Across tasks in dexterous manipulation, legged locomotion, and classic control, EPO outperforms state-of-the-art baselines in sample efficiency, asymptotic performance, and scalability.
- Abstract(参考訳): オンライン強化学習(RL)アルゴリズムは、その強い漸近的パフォーマンスとトレーニング安定性のために広く用いられているが、追加の並列環境は、ポリシーによる多様性の制限により冗長なデータを生成するため、より大きなバッチサイズでスケールするのに苦労している。
対照的に、進化的アルゴリズム(EA)は自然にスケールし、ランダム化された集団検索による探索を促進するが、しばしばサンプル非効率である。
本稿では、EAのスケーラビリティと多様性と、ポリシー勾配の性能と安定性を組み合わせたハイブリッドアルゴリズムである進化的ポリシー最適化(EPO)を提案する。
EPOは潜伏変数を条件としたエージェントの集団を維持し、コヒーレンスとメモリ効率のためのアクタークリティカルネットワークパラメータを共有し、さまざまな経験をマスターエージェントに集約する。
巧妙な操作、足の移動、古典的な制御のタスク全体において、EPOはサンプル効率、漸近的パフォーマンス、スケーラビリティにおいて最先端のベースラインを上回っている。
関連論文リスト
- Evolutionary Policy Optimization [9.519528646219054]
強化学習における重要な課題は、サンプル効率を犠牲にすることなく、探索・探索トレードオフを管理することである。
本稿では,進化的政策最適化(EPO, Evolutionary Policy Optimization)を提案する。
実験結果から,EPOは標準PG法やEC法と比較して,政策品質とサンプル効率を両立させることがわかった。
論文 参考訳(メタデータ) (2025-04-17T01:33:06Z) - RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-03-25T12:52:38Z) - Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [1.631115063641726]
オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを導入し,PPOアルゴリズムを強化するフレームワークを提案する。
RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
論文 参考訳(メタデータ) (2024-09-02T19:10:32Z) - SAPG: Split and Aggregate Policy Gradients [37.433915947580076]
本稿では,大規模環境をチャンクに分割し,重要サンプリングにより融合させることにより,大規模環境を効果的に活用できる新しいオンラインRLアルゴリズムを提案する。
我々のアルゴリズムはSAPGと呼ばれ、バニラPPOや他の強力なベースラインが高い性能を達成できない様々な困難環境において、非常に高い性能を示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:50Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Evolutionary Action Selection for Gradient-based Policy Learning [6.282299638495976]
進化的アルゴリズム(EA)とDeep Reinforcement Learning(DRL)が最近組み合わされ、より優れたポリシー学習のための2つのソリューションの利点が統合された。
本稿では、EAとDRLの新たな組み合わせである進化的行動選択遅延Deep Deterministic Policy Gradient (EAS-TD3)を提案する。
論文 参考訳(メタデータ) (2022-01-12T03:31:21Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。