Fugu-MT 論文翻訳(概要): Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

論文の概要: Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

arxiv url: http://arxiv.org/abs/2603.01741v2
Date: Tue, 03 Mar 2026 08:32:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 14:54:12.629841
Title: Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning
Title（参考訳）: 大規模強化学習における組立政策の多様性の再考
Authors: Naoki Shitanda, Motoki Omura, Tatsuya Harada, Takayuki Osa,
Abstract要約: 政治間の多様性が政策アンサンブルの学習効率に与える影響を理論的に分析する。我々は、政策間のKL制約を通じて多様性を規制する結合政策最適化を提案する。この結果から, 適切な規制下での多様な探索が, 安定した, サンプル効率の学習に欠かせないことが示唆された。
参考スコア（独自算出の注目度）: 38.79118914746284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling reinforcement learning to tens of thousands of parallel environments requires overcoming the limited exploration capacity of a single policy. Ensemble-based policy gradient methods, which employ multiple policies to collect diverse samples, have recently been proposed to promote exploration. However, merely broadening the exploration space does not always enhance learning capability, since excessive exploration can reduce exploration quality or compromise training stability. In this work, we theoretically analyze the impact of inter-policy diversity on learning efficiency in policy ensembles, and propose Coupled Policy Optimization which regulates diversity through KL constraints between policies. The proposed method enables effective exploration and outperforms strong baselines such as SAPG, PBT, and PPO across multiple tasks, including challenging dexterous manipulation, in terms of both sample efficiency and final performance. Furthermore, analysis of policy diversity and effective sample size during training reveals that follower policies naturally distribute around the leader, demonstrating the emergence of structured and efficient exploratory behavior. Our results indicate that diverse exploration under appropriate regulation is key to achieving stable and sample-efficient learning in ensemble policy gradient methods. Project page at https://naoki04.github.io/paper-cpo/ .
Abstract（参考訳）: 数万の並列環境に強化学習を拡大するには、単一のポリシーの限られた探索能力を克服する必要がある。多様なサンプルの収集に複数のポリシーを取り入れたアンサンブル型政策勾配法が近年,探索を促進するために提案されている。しかし、探索空間を拡大するだけでは、過剰な探索が探索品質を低下させ、訓練安定性を損なう可能性があるため、学習能力が常に向上するとは限らない。本研究では、政策アンサンブルにおける学習効率に対する政治間多様性の影響を理論的に分析し、政策間のKL制約を通じて多様性を規制する結合政策最適化を提案する。提案手法は, サンプル効率と最終性能の両面から, SAPG, PBT, PPOなどの強力なベースラインを複数のタスクにわたって効果的に探索し, 性能を向上する。さらに、トレーニング中の政策の多様性と効果的なサンプルサイズの分析により、フォロワーポリシーがリーダーの周りに自然に分散し、構造化された効率的な探索行動の出現を示すことが明らかとなった。この結果から,適切な規制の下での多様な探索が,アンサンブル政策勾配法における安定かつサンプル効率の学習の鍵であることが示唆された。プロジェクトページはhttps://naoki04.github.io/paper-cpo/。

関連論文リスト

Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文参考訳（メタデータ） (2025-09-29T19:32:11Z)
Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-26T21:53:36Z)
Improving DAPO from a Mixed-Policy Perspective [6.237966553429477]
本稿では,動的sAmpling Policy Optimization (DAPO)アルゴリズムに2つの新しい修正を加えている。まず、政治以外の経験を提供するための、事前訓練された安定した指導方針を取り入れた手法を提案する。次に、このアイデアを拡張してゼロ逆サンプルを再利用し、しばしば動的サンプリング戦略によって破棄される。
論文参考訳（メタデータ） (2025-07-17T09:12:09Z)
POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-02-09T03:01:13Z)
Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。 ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文参考訳（メタデータ） (2023-02-23T10:48:09Z)
Sigmoidally Preconditioned Off-policy Learning:a new exploration method for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。 P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文参考訳（メタデータ） (2022-05-20T09:38:04Z)
CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文参考訳（メタデータ） (2022-05-19T09:48:56Z)
Consolidation via Policy Information Regularization in Deep RL for Multi-Agent Games [21.46148507577606]
本稿では,MADDPG(Multi-Agent Deep Deterministic Policy Gradient)強化学習アルゴリズムにおいて,学習ポリシの複雑さに関する情報理論的制約を導入する。多エージェント協調型・競争型タスクの実験結果から,これらの環境における学習性能向上のための能力制限型アプローチがよい候補であることが示された。
論文参考訳（メタデータ） (2020-11-23T16:28:27Z)
Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文参考訳（メタデータ） (2020-04-19T15:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。