論文の概要: Adversarial Policy Optimization in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.14533v1
- Date: Thu, 27 Apr 2023 21:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 15:45:45.492985
- Title: Adversarial Policy Optimization in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における敵対的政策最適化
- Authors: Md Masudur Rahman and Yexiang Xue
- Abstract要約: ディープニューラルネットワークで表されるポリシーは過度に適合し、強化学習エージェントが効果的なポリシーを学ぶのを妨げます。
データ拡張は、オーバーフィッティングの効果を軽減し、RLエージェントのパフォーマンスを高めることができる。
本稿では、上記の問題を緩和し、学習ポリシーの効率を向上させるための新しいRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 16.999444076456268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The policy represented by the deep neural network can overfit the spurious
features in observations, which hamper a reinforcement learning agent from
learning effective policy. This issue becomes severe in high-dimensional state,
where the agent struggles to learn a useful policy. Data augmentation can
provide a performance boost to RL agents by mitigating the effect of
overfitting. However, such data augmentation is a form of prior knowledge, and
naively applying them in environments might worsen an agent's performance. In
this paper, we propose a novel RL algorithm to mitigate the above issue and
improve the efficiency of the learned policy. Our approach consists of a
max-min game theoretic objective where a perturber network modifies the state
to maximize the agent's probability of taking a different action while
minimizing the distortion in the state. In contrast, the policy network updates
its parameters to minimize the effect of perturbation while maximizing the
expected future reward. Based on this objective, we propose a practical deep
reinforcement learning algorithm, Adversarial Policy Optimization (APO). Our
method is agnostic to the type of policy optimization, and thus data
augmentation can be incorporated to harness the benefit. We evaluated our
approaches on several DeepMind Control robotic environments with
high-dimensional and noisy state settings. Empirical results demonstrate that
our method APO consistently outperforms the state-of-the-art on-policy PPO
agent. We further compare our method with state-of-the-art data augmentation,
RAD, and regularization-based approach DRAC. Our agent APO shows better
performance compared to these baselines.
- Abstract(参考訳): ディープニューラルネットワークで表されるポリシーは、観測における突発的な特徴に過度に適合し、強化学習エージェントが効果的なポリシーを学ぶのを妨げます。
この問題は、エージェントが有用なポリシーを学ぶのに苦労する高次元状態で深刻になる。
データ拡張は、オーバーフィッティングの効果を軽減し、RLエージェントのパフォーマンスを高めることができる。
しかし、そのようなデータ拡張は事前知識の形式であり、それらを環境に適用することでエージェントのパフォーマンスが悪化する可能性がある。
本稿では,上記の課題を軽減し,学習方針の効率を向上させるための新しいrlアルゴリズムを提案する。
提案手法は,摂動ネットワークが状態を変化させ,動作の歪みを最小限に抑えながらエージェントが異なる動作をとる確率を最大化する,最大最小のゲーム理論に基づく。
対照的に、ポリシーネットワークはそのパラメータを更新して摂動効果を最小限に抑えつつ、期待される将来の報酬を最大化する。
この目的に基づき,実用的な深層強化学習アルゴリズムであるadversarial policy optimization (apo)を提案する。
本手法はポリシー最適化のタイプに依存せず,そのメリットを活かすためにデータ拡張を組み込むことができる。
我々は,高次元かつノイズの多い状態設定のDeepMind制御ロボット環境に対するアプローチを評価した。
実証実験の結果,APO法は最先端のPPOエージェントより一貫して優れていた。
さらに,本手法と最先端データ拡張,RAD,正規化に基づくアプローチDRACとの比較を行った。
私たちのエージェントAPOは、これらのベースラインよりも優れたパフォーマンスを示します。
関連論文リスト
- Dropout Strategy in Reinforcement Learning: Limiting the Surrogate
Objective Variance in Policy Optimization Methods [0.0]
政策に基づく強化学習アルゴリズムは様々な分野で広く利用されている。
これらのアルゴリズムは、ポリシー反復に重要サンプリングを導入する。
これにより、サロゲートの目的の分散度が高くなり、アルゴリズムの安定性と収束度に間接的に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-31T11:38:26Z) - Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。