論文の概要: Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled
Perturbations
- arxiv url: http://arxiv.org/abs/2307.12062v1
- Date: Sat, 22 Jul 2023 12:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 18:07:37.960181
- Title: Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled
Perturbations
- Title(参考訳): 時間共役摂動を扱うゲーム理論ロバスト強化学習
- Authors: Yongyuan Liang, Yanchao Sun, Ruijie Zheng, Xiangyu Liu, Tuomas
Sandholm, Furong Huang and Stephen McAleer
- Abstract要約: ロバスト強化学習は、環境の摂動や敵の攻撃の下でうまく機能する政策を訓練しようとする。
既存のアプローチでは、可能な摂動の空間は時間経過で同じであると仮定している。
我々は時間的に結合した摂動を正式に導入し、既存のロバストなRL法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
- 参考スコア(独自算出の注目度): 73.6367672248928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust reinforcement learning (RL) seeks to train policies that can perform
well under environment perturbations or adversarial attacks. Existing
approaches typically assume that the space of possible perturbations remains
the same across timesteps. However, in many settings, the space of possible
perturbations at a given timestep depends on past perturbations. We formally
introduce temporally-coupled perturbations, presenting a novel challenge for
existing robust RL methods. To tackle this challenge, we propose GRAD, a novel
game-theoretic approach that treats the temporally-coupled robust RL problem as
a partially-observable two-player zero-sum game. By finding an approximate
equilibrium in this game, GRAD ensures the agent's robustness against
temporally-coupled perturbations. Empirical experiments on a variety of
continuous control tasks demonstrate that our proposed approach exhibits
significant robustness advantages compared to baselines against both standard
and temporally-coupled attacks, in both state and action spaces.
- Abstract(参考訳): ロバスト強化学習(RL)は、環境の摂動や敵の攻撃でうまく機能する政策を訓練することを目指している。
既存のアプローチでは、典型的には摂動の空間は時間経過で同じであると仮定する。
しかし、多くの設定において、ある時間ステップで起こりうる摂動の空間は過去の摂動に依存する。
我々は,時間結合型摂動法を正式に導入し,既存のロバストな rl 法に対する新しい挑戦を提示した。
この課題に取り組むために,時間結合型ロバストrl問題を部分観測可能な2人プレイのゼロサムゲームとして扱う,新しいゲーム理論のgradを提案する。
このゲームで近似平衡を見つけることで、GRADは時間的に結合した摂動に対するエージェントの堅牢性を保証する。
種々の連続制御タスクに関する実証実験により,提案手法は,状態空間と行動空間の両方において,標準的および時間的に結合した攻撃に対するベースラインと比較して,有意な堅牢性を示すことを示した。
関連論文リスト
- Robust off-policy Reinforcement Learning via Soft Constrained Adversary [0.7583052519127079]
本稿では,f-divergence制約問題と,それ以前の知識分布について述べる。
2つの典型的な攻撃とそれに対応する堅牢な学習フレームワークを導出する。
提案手法は, サンプル効率のよいオフポリチックRLにおいて, 優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-31T11:13:33Z) - Time-Constrained Robust MDPs [28.641743425443]
我々は,多因子性,相関性,時間依存障害を考慮した新しい時間制約型ロバストMDP(TC-RMDP)の定式化を導入する。
本研究では、ロバストなRLにおける一般的な仮定を再考し、より実用的で現実的なRLアプリケーションを開発するための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-12T16:45:09Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Continuous-Time Model-Based Reinforcement Learning [4.427447378048202]
本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。
我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
論文 参考訳(メタデータ) (2021-02-09T11:30:19Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。