Fugu-MT 論文翻訳(概要): Evolutionary Policy Optimization

論文の概要: Evolutionary Policy Optimization

arxiv url: http://arxiv.org/abs/2503.19037v1
Date: Mon, 24 Mar 2025 18:08:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-26 19:42:58.530348
Title: Evolutionary Policy Optimization
Title（参考訳）: 進化的政策最適化
Authors: Jianren Wang, Yifan Su, Abhinav Gupta, Deepak Pathak,
Abstract要約: 現在のオン政治手法では、並列化された環境の利点を十分に活用できない。 EPOは、EAの強みと政策勾配を組み合わせた、新しい政策勾配アルゴリズムである。 EPOは多様で挑戦的な環境におけるパフォーマンスを著しく向上させる。
参考スコア（独自算出の注目度）: 47.30139909878251
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite its extreme sample inefficiency, on-policy reinforcement learning has become a fundamental tool in real-world applications. With recent advances in GPU-driven simulation, the ability to collect vast amounts of data for RL training has scaled exponentially. However, studies show that current on-policy methods, such as PPO, fail to fully leverage the benefits of parallelized environments, leading to performance saturation beyond a certain scale. In contrast, Evolutionary Algorithms (EAs) excel at increasing diversity through randomization, making them a natural complement to RL. However, existing EvoRL methods have struggled to gain widespread adoption due to their extreme sample inefficiency. To address these challenges, we introduce Evolutionary Policy Optimization (EPO), a novel policy gradient algorithm that combines the strengths of EA and policy gradients. We show that EPO significantly improves performance across diverse and challenging environments, demonstrating superior scalability with parallelized simulations.
Abstract（参考訳）: 極端なサンプル非効率にもかかわらず、オンライン強化学習は現実世界のアプリケーションにおいて基本的なツールとなっている。 GPU駆動シミュレーションの最近の進歩により、RLトレーニングのための膨大なデータを収集する能力は指数関数的に拡大した。しかしながら、PPOのような現在のオン政治手法は、並列化された環境の利点を十分に活用することができず、特定のスケールを超える性能飽和をもたらすことが研究によって示されている。対照的に、進化的アルゴリズム(EA)は、ランダム化によって多様性を増大させ、RLを自然に補完する。しかしながら、既存のEvoRL法は、極端なサンプル不効率のため、広く採用されるのに苦労している。これらの課題に対処するために、進化的政策最適化(EPO)を導入し、EAの強みと政策勾配を組み合わせた新しい政策勾配アルゴリズムを提案する。 EPOは多様で困難な環境における性能を著しく改善し、並列化シミュレーションによる優れたスケーラビリティを示す。

関連論文リスト

Evolutionary Policy Optimization [9.519528646219054]
強化学習における重要な課題は、サンプル効率を犠牲にすることなく、探索・探索トレードオフを管理することである。本稿では,進化的政策最適化(EPO, Evolutionary Policy Optimization)を提案する。実験結果から,EPOは標準PG法やEC法と比較して,政策品質とサンプル効率を両立させることがわかった。
論文参考訳（メタデータ） (2025-04-17T01:33:06Z)
RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。 AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳（メタデータ） (2025-03-25T12:52:38Z)
Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [1.631115063641726]
オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを導入し,PPOアルゴリズムを強化するフレームワークを提案する。 RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
論文参考訳（メタデータ） (2024-09-02T19:10:32Z)
SAPG: Split and Aggregate Policy Gradients [37.433915947580076]
本稿では,大規模環境をチャンクに分割し,重要サンプリングにより融合させることにより,大規模環境を効果的に活用できる新しいオンラインRLアルゴリズムを提案する。我々のアルゴリズムはSAPGと呼ばれ、バニラPPOや他の強力なベースラインが高い性能を達成できない様々な困難環境において、非常に高い性能を示す。
論文参考訳（メタデータ） (2024-07-29T17:59:50Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。 ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文参考訳（メタデータ） (2023-02-23T10:48:09Z)
Evolutionary Action Selection for Gradient-based Policy Learning [6.282299638495976]
進化的アルゴリズム(EA)とDeep Reinforcement Learning(DRL)が最近組み合わされ、より優れたポリシー学習のための2つのソリューションの利点が統合された。本稿では、EAとDRLの新たな組み合わせである進化的行動選択遅延Deep Deterministic Policy Gradient (EAS-TD3)を提案する。
論文参考訳（メタデータ） (2022-01-12T03:31:21Z)
Semi-On-Policy Training for Sample Efficient Multi-Agent Policy Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2021-04-27T19:37:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。