論文の概要: Robust Adversarial Reinforcement Learning via Bounded Rationality
Curricula
- arxiv url: http://arxiv.org/abs/2311.01642v1
- Date: Fri, 3 Nov 2023 00:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 15:35:12.006558
- Title: Robust Adversarial Reinforcement Learning via Bounded Rationality
Curricula
- Title(参考訳): 有界合理性曲線によるロバストな対向強化学習
- Authors: Aryaman Reddi, Maximilian T\"olle, Jan Peters, Georgia Chalvatzaki,
Carlo D'Eramo
- Abstract要約: 敵強化学習は、競争力のあるゼロサムマルコフゲームにおいて、敵が行使する不安定化力に対する主人公を訓練する。
ナッシュ平衡を見つけるには、複雑なサドル点最適化問題に直面する必要がある。
本稿では,サドル点最適化問題の複雑性を軽減するために,エントロピー正則化に基づく対向RLの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 23.80052541774509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robustness against adversarial attacks and distribution shifts is a
long-standing goal of Reinforcement Learning (RL). To this end, Robust
Adversarial Reinforcement Learning (RARL) trains a protagonist against
destabilizing forces exercised by an adversary in a competitive zero-sum Markov
game, whose optimal solution, i.e., rational strategy, corresponds to a Nash
equilibrium. However, finding Nash equilibria requires facing complex saddle
point optimization problems, which can be prohibitive to solve, especially for
high-dimensional control. In this paper, we propose a novel approach for
adversarial RL based on entropy regularization to ease the complexity of the
saddle point optimization problem. We show that the solution of this
entropy-regularized problem corresponds to a Quantal Response Equilibrium
(QRE), a generalization of Nash equilibria that accounts for bounded
rationality, i.e., agents sometimes play random actions instead of optimal
ones. Crucially, the connection between the entropy-regularized objective and
QRE enables free modulation of the rationality of the agents by simply tuning
the temperature coefficient. We leverage this insight to propose our novel
algorithm, Quantal Adversarial RL (QARL), which gradually increases the
rationality of the adversary in a curriculum fashion until it is fully
rational, easing the complexity of the optimization problem while retaining
robustness. We provide extensive evidence of QARL outperforming RARL and recent
baselines across several MuJoCo locomotion and navigation problems in overall
performance and robustness.
- Abstract(参考訳): 敵攻撃や分散シフトに対するロバスト性は、強化学習(RL)の長年の目標である。
この目的のために、ロバストな敵強化学習(rarl)は、競争ゼロサムマルコフゲームにおいて敵が実行する不安定な力に対して主人公を訓練し、その最適解、すなわち合理的戦略がナッシュ均衡に対応する。
しかし、ナッシュ平衡を見つけるには複雑なサドル点最適化問題に直面する必要があり、特に高次元制御では解けない。
本稿では,サドル点最適化問題の複雑性を軽減するために,エントロピー正則化に基づく逆RLの新たなアプローチを提案する。
このエントロピー規則化問題の解法は、有界な有理性、すなわちエージェントが最適なものの代わりにランダムな動作を行うようなナッシュ均衡の一般化である量子応答平衡(QRE)に対応することを示す。
重要なのは、エントロピー正規化目的とqreとの接続により、温度係数を単純に調整することによって、剤の合理性を自由に変調できることである。
この知見を活かして,本アルゴリズムであるquantal adversarial rl (qarl) を提案する。このアルゴリズムは,本手法が完全に合理的になるまで,そのアルゴリズムの合理性を徐々に向上させ,ロバスト性を維持しつつ最適化問題の複雑さを緩和する。
我々は,QARL が RARL を上回り,近年の MuJoCo のロコモーションやナビゲーションの問題を総合的な性能とロバスト性に及ぼしていることを示す。
関連論文リスト
- Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:10:04Z) - Light Unbalanced Optimal Transport [69.18220206873772]
既存の解法は、原理に基づいているか、複数のニューラルネットワークを含む複雑な最適化目標を重み付けしている。
我々は,この解法がUEOT解の普遍近似を提供し,一般化限界を得ることを示す。
論文 参考訳(メタデータ) (2023-03-14T15:44:40Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Robust Reinforcement Learning as a Stackelberg Game via
Adaptively-Regularized Adversarial Training [43.97565851415018]
ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。
既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。
RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
論文 参考訳(メタデータ) (2022-02-19T03:44:05Z) - Mind Your Solver! On Adversarial Attack and Defense for Combinatorial
Optimization [111.78035414744045]
我々は,最適解法に対する敵攻撃と防御のメカニズムの開発を主導する。
本稿では, グラフ構造を改良し, 解法の堅牢性を高めるための, 単純かつ効果的な防衛戦略を提案する。
論文 参考訳(メタデータ) (2021-12-28T15:10:15Z) - Fast Policy Extragradient Methods for Competitive Games with Entropy
Regularization [40.21627891283402]
本稿では,競争ゲームの均衡の計算問題について考察する。
エントロピー正則化のアルゴリズム的役割に動機付けられ、我々は証明可能な効率の良い指数関数法を開発した。
論文 参考訳(メタデータ) (2021-05-31T17:51:15Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。