論文の概要: Adversarial Policy Optimization in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.14533v1
- Date: Thu, 27 Apr 2023 21:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 15:45:45.492985
- Title: Adversarial Policy Optimization in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における敵対的政策最適化
- Authors: Md Masudur Rahman and Yexiang Xue
- Abstract要約: ディープニューラルネットワークで表されるポリシーは過度に適合し、強化学習エージェントが効果的なポリシーを学ぶのを妨げます。
データ拡張は、オーバーフィッティングの効果を軽減し、RLエージェントのパフォーマンスを高めることができる。
本稿では、上記の問題を緩和し、学習ポリシーの効率を向上させるための新しいRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 16.999444076456268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The policy represented by the deep neural network can overfit the spurious
features in observations, which hamper a reinforcement learning agent from
learning effective policy. This issue becomes severe in high-dimensional state,
where the agent struggles to learn a useful policy. Data augmentation can
provide a performance boost to RL agents by mitigating the effect of
overfitting. However, such data augmentation is a form of prior knowledge, and
naively applying them in environments might worsen an agent's performance. In
this paper, we propose a novel RL algorithm to mitigate the above issue and
improve the efficiency of the learned policy. Our approach consists of a
max-min game theoretic objective where a perturber network modifies the state
to maximize the agent's probability of taking a different action while
minimizing the distortion in the state. In contrast, the policy network updates
its parameters to minimize the effect of perturbation while maximizing the
expected future reward. Based on this objective, we propose a practical deep
reinforcement learning algorithm, Adversarial Policy Optimization (APO). Our
method is agnostic to the type of policy optimization, and thus data
augmentation can be incorporated to harness the benefit. We evaluated our
approaches on several DeepMind Control robotic environments with
high-dimensional and noisy state settings. Empirical results demonstrate that
our method APO consistently outperforms the state-of-the-art on-policy PPO
agent. We further compare our method with state-of-the-art data augmentation,
RAD, and regularization-based approach DRAC. Our agent APO shows better
performance compared to these baselines.
- Abstract(参考訳): ディープニューラルネットワークで表されるポリシーは、観測における突発的な特徴に過度に適合し、強化学習エージェントが効果的なポリシーを学ぶのを妨げます。
この問題は、エージェントが有用なポリシーを学ぶのに苦労する高次元状態で深刻になる。
データ拡張は、オーバーフィッティングの効果を軽減し、RLエージェントのパフォーマンスを高めることができる。
しかし、そのようなデータ拡張は事前知識の形式であり、それらを環境に適用することでエージェントのパフォーマンスが悪化する可能性がある。
本稿では,上記の課題を軽減し,学習方針の効率を向上させるための新しいrlアルゴリズムを提案する。
提案手法は,摂動ネットワークが状態を変化させ,動作の歪みを最小限に抑えながらエージェントが異なる動作をとる確率を最大化する,最大最小のゲーム理論に基づく。
対照的に、ポリシーネットワークはそのパラメータを更新して摂動効果を最小限に抑えつつ、期待される将来の報酬を最大化する。
この目的に基づき,実用的な深層強化学習アルゴリズムであるadversarial policy optimization (apo)を提案する。
本手法はポリシー最適化のタイプに依存せず,そのメリットを活かすためにデータ拡張を組み込むことができる。
我々は,高次元かつノイズの多い状態設定のDeepMind制御ロボット環境に対するアプローチを評価した。
実証実験の結果,APO法は最先端のPPOエージェントより一貫して優れていた。
さらに,本手法と最先端データ拡張,RAD,正規化に基づくアプローチDRACとの比較を行った。
私たちのエージェントAPOは、これらのベースラインよりも優れたパフォーマンスを示します。
関連論文リスト
- Adaptive Opponent Policy Detection in Multi-Agent MDPs: Real-Time Strategy Switch Identification Using Running Error Estimation [1.079960007119637]
OPS-DeMoは、動的エラー減衰を利用して相手のポリシーの変更を検出するオンラインアルゴリズムである。
提案手法は,プレデター・プレイ設定のような動的シナリオにおいて,PPO学習モデルよりも優れている。
論文 参考訳(メタデータ) (2024-06-10T17:34:44Z) - Reflective Policy Optimization [20.228281670899204]
リフレクティブポリシー最適化(RPO) 政策最適化のための過去と将来の状態対応情報。
RPOはエージェントにイントロスペクションの権限を与え、現在の状態内でのアクションの変更を可能にする。
RPOの有効性と有効性は2つの強化学習ベンチマークで実証された。
論文 参考訳(メタデータ) (2024-06-06T01:46:49Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。