論文の概要: Diverse Policy Optimization for Structured Action Space
- arxiv url: http://arxiv.org/abs/2302.11917v1
- Date: Thu, 23 Feb 2023 10:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 15:44:35.239700
- Title: Diverse Policy Optimization for Structured Action Space
- Title(参考訳): 構造化行動空間の多元的最適化
- Authors: Wenhao Li, Baoxiang Wang, Shanchao Yang and Hongyuan Zha
- Abstract要約: エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
- 参考スコア(独自算出の注目度): 59.361076277997704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enhancing the diversity of policies is beneficial for robustness,
exploration, and transfer in reinforcement learning (RL). In this paper, we aim
to seek diverse policies in an under-explored setting, namely RL tasks with
structured action spaces with the two properties of composability and local
dependencies. The complex action structure, non-uniform reward landscape, and
subtle hyperparameter tuning due to the properties of structured actions
prevent existing approaches from scaling well. We propose a simple and
effective RL method, Diverse Policy Optimization (DPO), to model the policies
in structured action space as the energy-based models (EBM) by following the
probabilistic RL framework. A recently proposed novel and powerful generative
model, GFlowNet, is introduced as the efficient, diverse EBM-based policy
sampler. DPO follows a joint optimization framework: the outer layer uses the
diverse policies sampled by the GFlowNet to update the EBM-based policies,
which supports the GFlowNet training in the inner layer. Experiments on ATSC
and Battle benchmarks demonstrate that DPO can efficiently discover
surprisingly diverse policies in challenging scenarios and substantially
outperform existing state-of-the-art methods.
- Abstract(参考訳): 政策の多様性を高めることは、強化学習(RL)における堅牢性、探索、移動に有益である。
本稿では,コンポーザビリティと局所依存性の2つの特性を持つ構造化アクション空間を持つrlタスクという,未検討の環境における多様なポリシーを求めることを目的とする。
複雑なアクション構造、非一様報酬ランドスケープ、構造化されたアクションの性質による微妙なハイパーパラメータチューニングは、既存のアプローチのスケーリングをうまく妨げている。
本稿では,構成された行動空間におけるポリシーを,確率的RLフレームワークに従ってエネルギーベースモデル(EBM)としてモデル化する,単純かつ効果的なRL手法であるDPOを提案する。
最近提案された新規かつ強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
外部層はGFlowNetによってサンプリングされた多様なポリシーを使用して、内部層でのGFlowNetトレーニングをサポートするEBMベースのポリシーを更新します。
ATSCとBattleベンチマークの実験では、DPOは挑戦的なシナリオにおいて驚くほど多様なポリシーを効果的に発見でき、既存の最先端の手法を大幅に上回っている。
関連論文リスト
- Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。
DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。
DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文 参考訳(メタデータ) (2024-09-01T02:47:50Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Towards Applicable Reinforcement Learning: Improving the Generalization
and Sample Efficiency with Policy Ensemble [43.95417785185457]
金融取引やロジスティックシステムといった現実世界の応用において、強化学習アルゴリズムが成功することは困難である。
本稿では,エンド・ツー・エンドでアンサンブルポリシーを学習するEnsemble Proximal Policy Optimization (EPPO)を提案する。
EPPOは、バニラポリシー最適化アルゴリズムやその他のアンサンブル手法と比較して、より効率が高く、現実世界のアプリケーションにとって堅牢である。
論文 参考訳(メタデータ) (2022-05-19T02:25:32Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。