論文の概要: Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations
- arxiv url: http://arxiv.org/abs/2307.12062v3
- Date: Thu, 25 Apr 2024 04:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-27 00:07:23.891514
- Title: Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations
- Title(参考訳): 時間的結合摂動を考慮したゲーム理論ロバスト強化学習
- Authors: Yongyuan Liang, Yanchao Sun, Ruijie Zheng, Xiangyu Liu, Benjamin Eysenbach, Tuomas Sandholm, Furong Huang, Stephen McAleer,
- Abstract要約: 我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
- 参考スコア(独自算出の注目度): 98.5802673062712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying reinforcement learning (RL) systems requires robustness to uncertainty and model misspecification, yet prior robust RL methods typically only study noise introduced independently across time. However, practical sources of uncertainty are usually coupled across time. We formally introduce temporally-coupled perturbations, presenting a novel challenge for existing robust RL methods. To tackle this challenge, we propose GRAD, a novel game-theoretic approach that treats the temporally-coupled robust RL problem as a partially observable two-player zero-sum game. By finding an approximate equilibrium within this game, GRAD optimizes for general robustness against temporally-coupled perturbations. Experiments on continuous control tasks demonstrate that, compared with prior methods, our approach achieves a higher degree of robustness to various types of attacks on different attack domains, both in settings with temporally-coupled perturbations and decoupled perturbations.
- Abstract(参考訳): 強化学習システム(RL)の展開には、不確実性に対する堅牢性や、不特定性をモデル化する必要があるが、従来のロバストなRL手法は通常、時間にわたって独立して導入されるノイズについてのみ研究する。
しかし、実際的な不確実性の源は、通常は時間をかけて結合される。
我々は時間的に結合した摂動を正式に導入し、既存のロバストなRL法に挑戦する。
この課題に対処するために、時間的に結合されたロバストなRL問題を部分的に観察可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
このゲーム内で近似平衡を求めることにより、GRADは時間的に結合した摂動に対する一般的な堅牢性を最適化する。
連続制御タスクの実験では、従来の手法と比較して、時間的に結合した摂動と非結合的な摂動の両方において、異なる攻撃領域に対する様々な種類の攻撃に対して高い堅牢性を達成することが示されている。
関連論文リスト
- Two-step dynamic obstacle avoidance [0.0]
本稿では,教師付き学習と強化学習を組み合わせた動的障害物回避タスクのための2段階アーキテクチャを提案する。
最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスクを推定するためのデータ駆動型アプローチを導入する。
第2ステップでは、これらの衝突リスク推定値をRLエージェントの観察空間に含め、その状況意識を高める。
論文 参考訳(メタデータ) (2023-11-28T14:55:50Z) - The equivalence of dynamic and strategic stability under regularized
learning in games [33.74394172275373]
有限ゲームにおける正規化学習の長時間動作について検討する。
戦略的安定性と動的安定性の等価性を得る。
エントロピー正則化に基づく手法は幾何速度で収束することを示す。
論文 参考訳(メタデータ) (2023-11-04T14:07:33Z) - Balance, Imbalance, and Rebalance: Understanding Robust Overfitting from
a Minimax Game Perspective [80.51463286812314]
敵対的訓練(AT)はおそらく、頑健な特徴を抽出するための最先端のアルゴリズムである。
ATは、特に学習率(LR)が崩壊した後、深刻な強固な過適合問題に悩まされる。
我々は, LR崩壊が, より強い記憶能力でトレーナーに力を与えることにより, ミニマックスゲーム間のバランスを損なうことを示す。
論文 参考訳(メタデータ) (2023-10-30T09:00:11Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Asynchronous Gradient Play in Zero-Sum Multi-agent Games [25.690033495071923]
ゼロサムポリマトリクスゲームにおける遅延フィードバック下での非同期勾配プレイについて検討した。
我々の知る限りでは、この研究はゼロサムポリマトリクスゲームにおける非同期勾配プレイを理解することを目的とした最初のものである。
論文 参考訳(メタデータ) (2022-11-16T15:37:23Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。