論文の概要: Robust Reinforcement Learning using Adversarial Populations
- arxiv url: http://arxiv.org/abs/2008.01825v2
- Date: Tue, 22 Sep 2020 22:41:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:56:41.926166
- Title: Robust Reinforcement Learning using Adversarial Populations
- Title(参考訳): 敵集団を用いたロバスト強化学習
- Authors: Eugene Vinitsky and Yuqing Du and Kanaad Parvate and Kathy Jang and
Pieter Abbeel and Alexandre Bayen
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
- 参考スコア(独自算出の注目度): 118.73193330231163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is an effective tool for controller design but
can struggle with issues of robustness, failing catastrophically when the
underlying system dynamics are perturbed. The Robust RL formulation tackles
this by adding worst-case adversarial noise to the dynamics and constructing
the noise distribution as the solution to a zero-sum minimax game. However,
existing work on learning solutions to the Robust RL formulation has primarily
focused on training a single RL agent against a single adversary. In this work,
we demonstrate that using a single adversary does not consistently yield
robustness to dynamics variations under standard parametrizations of the
adversary; the resulting policy is highly exploitable by new adversaries. We
propose a population-based augmentation to the Robust RL formulation in which
we randomly initialize a population of adversaries and sample from the
population uniformly during training. We empirically validate across robotics
benchmarks that the use of an adversarial population results in a more robust
policy that also improves out-of-distribution generalization. Finally, we
demonstrate that this approach provides comparable robustness and
generalization as domain randomization on these benchmarks while avoiding a
ubiquitous domain randomization failure mode.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、基盤となるシステムの力学が乱れたときに破滅的に失敗する堅牢性の問題に対処することができる。
ロバストなrlの定式化は、ダイナミックスに最悪の対向ノイズを加え、ゼロサムミニマックスゲームの解としてノイズ分布を構築することでこれに取り組む。
しかしながら、Robust RLの定式化に関する既存の研究は、主に単一のRLエージェントを1つの敵に対してトレーニングすることに焦点を当てている。
そこで本研究では,単一の敵を用いた場合,その敵の標準パラメトリゼーションの下での力学変動に対する頑健性が得られないことを示す。
そこで本研究では,学習中の集団から敵集団とサンプルをランダムに初期化する,ロバストなrl定式化の人口ベース拡張を提案する。
我々はロボティクスのベンチマークを通して、敵集団の使用によってより強固なポリシーが生まれ、分散の一般化が改善されることを実証的に検証する。
最後に、この手法がユビキタスなドメインランダム化の失敗モードを避けつつ、これらのベンチマークでドメインランダム化として同等の堅牢性と一般化をもたらすことを実証する。
関連論文リスト
- Extend Adversarial Policy Against Neural Machine Translation via Unknown Token [66.40609413186122]
本稿では,トークン置換に基づく既存主流対立政策の文字摂動を導入した「デックスCharポリシー」を提案する。
また、RLのフィードバックを提供する自己教師型マッチングを改善し、敵の訓練に必要な意味的制約に対処する。
論文 参考訳(メタデータ) (2025-01-21T14:43:04Z) - ReRoGCRL: Representation-based Robustness in Goal-Conditioned
Reinforcement Learning [29.868059421372244]
Goal-Conditioned Reinforcement Learning (GCRL) は注目されているが、敵の摂動に対するアルゴリズム的堅牢性はいまだ解明されていない。
まず,敵対的コントラスト攻撃に触発されたセミコントラスト表現攻撃を提案する。
次に,セミコントラスト・アジュメンテーションと感性認識正規化器を組み合わせた適応表現手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:05:55Z) - Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:10:04Z) - Adversarial Training Should Be Cast as a Non-Zero-Sum Game [121.95628660889628]
対人訓練の2つのプレイヤーゼロサムパラダイムは、十分な強靭性を発揮できていない。
敵のトレーニングアルゴリズムでよく使われるサロゲートベースの緩和は、ロバスト性に関するすべての保証を無効にすることを示す。
対人訓練の新たな非ゼロサム二段階の定式化は、一致し、場合によっては最先端の攻撃よりも優れたフレームワークをもたらす。
論文 参考訳(メタデータ) (2023-06-19T16:00:48Z) - Adversarial Vulnerability of Randomized Ensembles [12.082239973914326]
ランダム化アンサンブルは、通常のATモデルよりも、知覚不能な逆方向の摂動に対して脆弱であることを示す。
本稿では,適応PGDが実現しなかった場合においても,ランダムアンサンブルを再現できる理論的・効率的な攻撃アルゴリズム(ARC)を提案する。
論文 参考訳(メタデータ) (2022-06-14T10:37:58Z) - Self-Ensemble Adversarial Training for Improved Robustness [14.244311026737666]
敵の訓練は、あらゆる種類の防衛方法において、様々な敵の攻撃に対する最強の戦略である。
最近の研究は主に新しい損失関数や正規化器の開発に重点を置いており、重み空間の特異な最適点を見つけようとしている。
我々は,歴史モデルの重みを平均化し,頑健な分類器を生成するための,単純だが強力なemphSelf-Ensemble Adversarial Training (SEAT)法を考案した。
論文 参考訳(メタデータ) (2022-03-18T01:12:18Z) - Robust Reinforcement Learning as a Stackelberg Game via
Adaptively-Regularized Adversarial Training [43.97565851415018]
ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。
既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。
RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
論文 参考訳(メタデータ) (2022-02-19T03:44:05Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。