論文の概要: Optimistic Distributionally Robust Policy Optimization
- arxiv url: http://arxiv.org/abs/2006.07815v1
- Date: Sun, 14 Jun 2020 06:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 12:40:02.738010
- Title: Optimistic Distributionally Robust Policy Optimization
- Title(参考訳): 最適分布ロバストポリシ最適化
- Authors: Jun Song, Chaoyue Zhao
- Abstract要約: Trust Region Policy Optimization (TRPO) と Proximal Policy Optimization (PPO) は、特定のパラメトリック分布クラスにポリシー表現を制限するため、準最適解に収束する傾向にある。
そこで我々は,信頼領域制約最適化問題をパラメータ化せずに解くために,最適分布ロバストポリシ最適化(ODRO)アルゴリズムを開発した。
提案アルゴリズムは, TRPOとPPOを改良し, 学習安定性を確保しつつ, サンプル効率の向上と最終方針の性能向上を実現した。
- 参考スコア(独自算出の注目度): 2.345728642535161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trust Region Policy Optimization (TRPO) and Proximal Policy Optimization
(PPO), as the widely employed policy based reinforcement learning (RL) methods,
are prone to converge to a sub-optimal solution as they limit the policy
representation to a particular parametric distribution class. To address this
issue, we develop an innovative Optimistic Distributionally Robust Policy
Optimization (ODRPO) algorithm, which effectively utilizes Optimistic
Distributionally Robust Optimization (DRO) approach to solve the trust region
constrained optimization problem without parameterizing the policies. Our
algorithm improves TRPO and PPO with a higher sample efficiency and a better
performance of the final policy while attaining the learning stability.
Moreover, it achieves a globally optimal policy update that is not promised in
the prevailing policy based RL algorithms. Experiments across tabular domains
and robotic locomotion tasks demonstrate the effectiveness of our approach.
- Abstract(参考訳): 信頼領域政策最適化(trpo)と近方政策最適化(ppo)は、広く採用されているポリシーベース強化学習(rl)手法として、ポリシー表現を特定のパラメトリック分布クラスに制限するため、サブ最適ソリューションに収束しがちである。
この問題に対処するために,最適分布ロバスト最適化 (ODRPO) アルゴリズムを開発した。このアルゴリズムは,最適分布ロバスト最適化 (DRO) アプローチを効果的に活用し,ポリシをパラメータ化せずに信頼領域制約最適化問題を解く。
本アルゴリズムは,trpoとppoを高いサンプル効率で改善し,学習安定性を保ちながら最終方針の性能を向上させる。
さらに、一般的なポリシーベースのRLアルゴリズムでは約束されていない、グローバルに最適なポリシー更新を実現する。
表領域にわたる実験とロボット移動タスクは、我々のアプローチの有効性を実証する。
関連論文リスト
- Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Generalized Proximal Policy Optimization with Sample Reuse [8.325359814939517]
我々は、オン・ポリシー・アルゴリズムの理論的に支持された安定性の利点とオフ・ポリシー・アルゴリズムのサンプル効率を組み合わせる。
我々は、政策改善の保証を開発し、その境界を政策最適化に使用するクリッピング機構に接続する。
これは、我々がGeneralized Proximal Policy Optimization with Sample Reuseと呼ぶ、一般的なアルゴリズムの非政治バージョンを動機付けます。
論文 参考訳(メタデータ) (2021-10-29T20:22:31Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。