論文の概要: Robust Reinforcement Learning as a Stackelberg Game via
Adaptively-Regularized Adversarial Training
- arxiv url: http://arxiv.org/abs/2202.09514v1
- Date: Sat, 19 Feb 2022 03:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 14:01:58.322775
- Title: Robust Reinforcement Learning as a Stackelberg Game via
Adaptively-Regularized Adversarial Training
- Title(参考訳): 適応正規化逆訓練によるstackelbergゲームとしてのロバスト強化学習
- Authors: Peide Huang, Mengdi Xu, Fei Fang, Ding Zhao
- Abstract要約: ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。
既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。
RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
- 参考スコア(独自算出の注目度): 43.97565851415018
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Robust Reinforcement Learning (RL) focuses on improving performances under
model errors or adversarial attacks, which facilitates the real-life deployment
of RL agents. Robust Adversarial Reinforcement Learning (RARL) is one of the
most popular frameworks for robust RL. However, most of the existing literature
models RARL as a zero-sum simultaneous game with Nash equilibrium as the
solution concept, which could overlook the sequential nature of RL deployments,
produce overly conservative agents, and induce training instability. In this
paper, we introduce a novel hierarchical formulation of robust RL - a
general-sum Stackelberg game model called RRL-Stack - to formalize the
sequential nature and provide extra flexibility for robust training. We develop
the Stackelberg Policy Gradient algorithm to solve RRL-Stack, leveraging the
Stackelberg learning dynamics by considering the adversary's response. Our
method generates challenging yet solvable adversarial environments which
benefit RL agents' robust learning. Our algorithm demonstrates better training
stability and robustness against different testing conditions in the
single-agent robotics control and multi-agent highway merging tasks.
- Abstract(参考訳): Robust Reinforcement Learning (RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に焦点を当てており、RLエージェントの実際のデプロイを容易にする。
Robust Adversarial Reinforcement Learning (RARL)は、堅牢なRLのための最も人気のあるフレームワークの1つである。
しかし、既存の文献の多くは、RARLをナッシュ均衡を解の概念としてゼロサム同時ゲームとしてモデル化しており、これはRL配置のシーケンシャルな性質を見落とし、過度に保守的なエージェントを生成し、トレーニング不安定を誘導することができる。
本稿では,RRL-Stackと呼ばれる汎用スタックベルグゲームモデルであるロバストRLの階層的な新しい定式化を導入し,シーケンシャルな性質を定式化し,ロバストトレーニングにさらなる柔軟性を提供する。
我々は,rrlスタックの解法としてstackelbergポリシー勾配アルゴリズムを開発し,敵の応答を考慮し,stackelberg学習ダイナミクスを活用する。
提案手法は,RLエージェントの堅牢な学習に役立てる,難解で解決可能な対向環境を生成する。
本アルゴリズムは,単エージェントロボット制御と多エージェントハイウェイ統合タスクにおいて,異なるテスト条件に対するトレーニング安定性とロバスト性を示す。
関連論文リスト
- Mastering the Digital Art of War: Developing Intelligent Combat Simulation Agents for Wargaming Using Hierarchical Reinforcement Learning [0.0]
対象とする観察抽象化、マルチモデル統合、ハイブリッドAIフレームワーク、階層的な強化学習フレームワークなど、包括的なアプローチを提案する。
線形空間減衰を用いた局所的な観測抽象化は,RL問題を単純化し,計算効率を向上し,従来の大域的観測法よりも優れた有効性を示す。
我々のハイブリッドAIフレームワークは、スクリプトエージェントとRLを同期させ、高レベルの決定にRLを、低レベルのタスクにスクリプトエージェントを活用し、適応性、信頼性、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-08-23T18:50:57Z) - Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。