論文の概要: Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations
- arxiv url: http://arxiv.org/abs/2307.12062v3
- Date: Thu, 25 Apr 2024 04:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-27 00:07:23.891514
- Title: Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations
- Title(参考訳): 時間的結合摂動を考慮したゲーム理論ロバスト強化学習
- Authors: Yongyuan Liang, Yanchao Sun, Ruijie Zheng, Xiangyu Liu, Benjamin Eysenbach, Tuomas Sandholm, Furong Huang, Stephen McAleer,
- Abstract要約: 我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
- 参考スコア(独自算出の注目度): 98.5802673062712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying reinforcement learning (RL) systems requires robustness to uncertainty and model misspecification, yet prior robust RL methods typically only study noise introduced independently across time. However, practical sources of uncertainty are usually coupled across time. We formally introduce temporally-coupled perturbations, presenting a novel challenge for existing robust RL methods. To tackle this challenge, we propose GRAD, a novel game-theoretic approach that treats the temporally-coupled robust RL problem as a partially observable two-player zero-sum game. By finding an approximate equilibrium within this game, GRAD optimizes for general robustness against temporally-coupled perturbations. Experiments on continuous control tasks demonstrate that, compared with prior methods, our approach achieves a higher degree of robustness to various types of attacks on different attack domains, both in settings with temporally-coupled perturbations and decoupled perturbations.
- Abstract(参考訳): 強化学習システム(RL)の展開には、不確実性に対する堅牢性や、不特定性をモデル化する必要があるが、従来のロバストなRL手法は通常、時間にわたって独立して導入されるノイズについてのみ研究する。
しかし、実際的な不確実性の源は、通常は時間をかけて結合される。
我々は時間的に結合した摂動を正式に導入し、既存のロバストなRL法に挑戦する。
この課題に対処するために、時間的に結合されたロバストなRL問題を部分的に観察可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
このゲーム内で近似平衡を求めることにより、GRADは時間的に結合した摂動に対する一般的な堅牢性を最適化する。
連続制御タスクの実験では、従来の手法と比較して、時間的に結合した摂動と非結合的な摂動の両方において、異なる攻撃領域に対する様々な種類の攻撃に対して高い堅牢性を達成することが示されている。
関連論文リスト
- Robust off-policy Reinforcement Learning via Soft Constrained Adversary [0.7583052519127079]
本稿では,f-divergence制約問題と,それ以前の知識分布について述べる。
2つの典型的な攻撃とそれに対応する堅牢な学習フレームワークを導出する。
提案手法は, サンプル効率のよいオフポリチックRLにおいて, 優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-31T11:13:33Z) - Time-Constrained Robust MDPs [28.641743425443]
我々は,多因子性,相関性,時間依存障害を考慮した新しい時間制約型ロバストMDP(TC-RMDP)の定式化を導入する。
本研究では、ロバストなRLにおける一般的な仮定を再考し、より実用的で現実的なRLアプリケーションを開発するための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-12T16:45:09Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Continuous-Time Model-Based Reinforcement Learning [4.427447378048202]
本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。
我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
論文 参考訳(メタデータ) (2021-02-09T11:30:19Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。