論文の概要: Diverse Policy Optimization for Structured Action Space
- arxiv url: http://arxiv.org/abs/2302.11917v1
- Date: Thu, 23 Feb 2023 10:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 15:44:35.239700
- Title: Diverse Policy Optimization for Structured Action Space
- Title(参考訳): 構造化行動空間の多元的最適化
- Authors: Wenhao Li, Baoxiang Wang, Shanchao Yang and Hongyuan Zha
- Abstract要約: エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
- 参考スコア(独自算出の注目度): 59.361076277997704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enhancing the diversity of policies is beneficial for robustness,
exploration, and transfer in reinforcement learning (RL). In this paper, we aim
to seek diverse policies in an under-explored setting, namely RL tasks with
structured action spaces with the two properties of composability and local
dependencies. The complex action structure, non-uniform reward landscape, and
subtle hyperparameter tuning due to the properties of structured actions
prevent existing approaches from scaling well. We propose a simple and
effective RL method, Diverse Policy Optimization (DPO), to model the policies
in structured action space as the energy-based models (EBM) by following the
probabilistic RL framework. A recently proposed novel and powerful generative
model, GFlowNet, is introduced as the efficient, diverse EBM-based policy
sampler. DPO follows a joint optimization framework: the outer layer uses the
diverse policies sampled by the GFlowNet to update the EBM-based policies,
which supports the GFlowNet training in the inner layer. Experiments on ATSC
and Battle benchmarks demonstrate that DPO can efficiently discover
surprisingly diverse policies in challenging scenarios and substantially
outperform existing state-of-the-art methods.
- Abstract(参考訳): 政策の多様性を高めることは、強化学習(RL)における堅牢性、探索、移動に有益である。
本稿では,コンポーザビリティと局所依存性の2つの特性を持つ構造化アクション空間を持つrlタスクという,未検討の環境における多様なポリシーを求めることを目的とする。
複雑なアクション構造、非一様報酬ランドスケープ、構造化されたアクションの性質による微妙なハイパーパラメータチューニングは、既存のアプローチのスケーリングをうまく妨げている。
本稿では,構成された行動空間におけるポリシーを,確率的RLフレームワークに従ってエネルギーベースモデル(EBM)としてモデル化する,単純かつ効果的なRL手法であるDPOを提案する。
最近提案された新規かつ強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
外部層はGFlowNetによってサンプリングされた多様なポリシーを使用して、内部層でのGFlowNetトレーニングをサポートするEBMベースのポリシーを更新します。
ATSCとBattleベンチマークの実験では、DPOは挑戦的なシナリオにおいて驚くほど多様なポリシーを効果的に発見でき、既存の最先端の手法を大幅に上回っている。
関連論文リスト
- POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Efficient Domain Coverage for Vehicles with Second-Order Dynamics via
Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。
提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文 参考訳(メタデータ) (2022-11-11T01:59:12Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Towards Applicable Reinforcement Learning: Improving the Generalization
and Sample Efficiency with Policy Ensemble [43.95417785185457]
金融取引やロジスティックシステムといった現実世界の応用において、強化学習アルゴリズムが成功することは困難である。
本稿では,エンド・ツー・エンドでアンサンブルポリシーを学習するEnsemble Proximal Policy Optimization (EPPO)を提案する。
EPPOは、バニラポリシー最適化アルゴリズムやその他のアンサンブル手法と比較して、より効率が高く、現実世界のアプリケーションにとって堅牢である。
論文 参考訳(メタデータ) (2022-05-19T02:25:32Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。