論文の概要: Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled
Perturbations
- arxiv url: http://arxiv.org/abs/2307.12062v1
- Date: Sat, 22 Jul 2023 12:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 18:07:37.960181
- Title: Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled
Perturbations
- Title(参考訳): 時間共役摂動を扱うゲーム理論ロバスト強化学習
- Authors: Yongyuan Liang, Yanchao Sun, Ruijie Zheng, Xiangyu Liu, Tuomas
Sandholm, Furong Huang and Stephen McAleer
- Abstract要約: ロバスト強化学習は、環境の摂動や敵の攻撃の下でうまく機能する政策を訓練しようとする。
既存のアプローチでは、可能な摂動の空間は時間経過で同じであると仮定している。
我々は時間的に結合した摂動を正式に導入し、既存のロバストなRL法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
- 参考スコア(独自算出の注目度): 73.6367672248928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust reinforcement learning (RL) seeks to train policies that can perform
well under environment perturbations or adversarial attacks. Existing
approaches typically assume that the space of possible perturbations remains
the same across timesteps. However, in many settings, the space of possible
perturbations at a given timestep depends on past perturbations. We formally
introduce temporally-coupled perturbations, presenting a novel challenge for
existing robust RL methods. To tackle this challenge, we propose GRAD, a novel
game-theoretic approach that treats the temporally-coupled robust RL problem as
a partially-observable two-player zero-sum game. By finding an approximate
equilibrium in this game, GRAD ensures the agent's robustness against
temporally-coupled perturbations. Empirical experiments on a variety of
continuous control tasks demonstrate that our proposed approach exhibits
significant robustness advantages compared to baselines against both standard
and temporally-coupled attacks, in both state and action spaces.
- Abstract(参考訳): ロバスト強化学習(RL)は、環境の摂動や敵の攻撃でうまく機能する政策を訓練することを目指している。
既存のアプローチでは、典型的には摂動の空間は時間経過で同じであると仮定する。
しかし、多くの設定において、ある時間ステップで起こりうる摂動の空間は過去の摂動に依存する。
我々は,時間結合型摂動法を正式に導入し,既存のロバストな rl 法に対する新しい挑戦を提示した。
この課題に取り組むために,時間結合型ロバストrl問題を部分観測可能な2人プレイのゼロサムゲームとして扱う,新しいゲーム理論のgradを提案する。
このゲームで近似平衡を見つけることで、GRADは時間的に結合した摂動に対するエージェントの堅牢性を保証する。
種々の連続制御タスクに関する実証実験により,提案手法は,状態空間と行動空間の両方において,標準的および時間的に結合した攻撃に対するベースラインと比較して,有意な堅牢性を示すことを示した。
関連論文リスト
- Two-step dynamic obstacle avoidance [0.0]
本稿では,教師付き学習と強化学習を組み合わせた動的障害物回避タスクのための2段階アーキテクチャを提案する。
最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスクを推定するためのデータ駆動型アプローチを導入する。
第2ステップでは、これらの衝突リスク推定値をRLエージェントの観察空間に含め、その状況意識を高める。
論文 参考訳(メタデータ) (2023-11-28T14:55:50Z) - The equivalence of dynamic and strategic stability under regularized
learning in games [33.74394172275373]
有限ゲームにおける正規化学習の長時間動作について検討する。
戦略的安定性と動的安定性の等価性を得る。
エントロピー正則化に基づく手法は幾何速度で収束することを示す。
論文 参考訳(メタデータ) (2023-11-04T14:07:33Z) - Balance, Imbalance, and Rebalance: Understanding Robust Overfitting from
a Minimax Game Perspective [80.51463286812314]
敵対的訓練(AT)はおそらく、頑健な特徴を抽出するための最先端のアルゴリズムである。
ATは、特に学習率(LR)が崩壊した後、深刻な強固な過適合問題に悩まされる。
我々は, LR崩壊が, より強い記憶能力でトレーナーに力を与えることにより, ミニマックスゲーム間のバランスを損なうことを示す。
論文 参考訳(メタデータ) (2023-10-30T09:00:11Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Asynchronous Gradient Play in Zero-Sum Multi-agent Games [25.690033495071923]
ゼロサムポリマトリクスゲームにおける遅延フィードバック下での非同期勾配プレイについて検討した。
我々の知る限りでは、この研究はゼロサムポリマトリクスゲームにおける非同期勾配プレイを理解することを目的とした最初のものである。
論文 参考訳(メタデータ) (2022-11-16T15:37:23Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。