論文の概要: Robust Reinforcement Learning through Efficient Adversarial Herding
- arxiv url: http://arxiv.org/abs/2306.07408v1
- Date: Mon, 12 Jun 2023 20:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 15:47:49.288939
- Title: Robust Reinforcement Learning through Efficient Adversarial Herding
- Title(参考訳): 効率的な対人ヘルディングによるロバスト強化学習
- Authors: Juncheng Dong, Hao-Lun Hsu, Qitong Gao, Vahid Tarokh, Miroslav Pajic
- Abstract要約: RLエージェントのロバスト性向上に有効な2プレーヤ最大ミンゲームを用いた対戦訓練が実証されている。
敵の群れを含む敵の群れを導入することで、2人プレイのゲームを拡大する。
実験の結果、我々のアプローチは一貫してより堅牢なポリシーを生成することが示された。
- 参考スコア(独自算出の注目度): 30.686863609710578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although reinforcement learning (RL) is considered the gold standard for
policy design, it may not always provide a robust solution in various
scenarios. This can result in severe performance degradation when the
environment is exposed to potential disturbances. Adversarial training using a
two-player max-min game has been proven effective in enhancing the robustness
of RL agents. In this work, we extend the two-player game by introducing an
adversarial herd, which involves a group of adversaries, in order to address
($\textit{i}$) the difficulty of the inner optimization problem, and
($\textit{ii}$) the potential over pessimism caused by the selection of a
candidate adversary set that may include unlikely scenarios. We first prove
that adversarial herds can efficiently approximate the inner optimization
problem. Then we address the second issue by replacing the worst-case
performance in the inner optimization with the average performance over the
worst-$k$ adversaries. We evaluate the proposed method on multiple MuJoCo
environments. Experimental results demonstrate that our approach consistently
generates more robust policies.
- Abstract(参考訳): 強化学習(RL)は政策設計のゴールドスタンダードとされているが、様々なシナリオにおいて堅牢なソリューションを提供するとは限らない。
これにより、環境が潜在的な乱れにさらされると、深刻な性能劣化が起こる。
RLエージェントのロバスト性向上に有効な2プレーヤ最大ミンゲームを用いた対戦訓練が実証されている。
本研究では,敵集団を含む敵集団を用いて,内的最適化問題の難易度($\textit{i}$)と,ありそうにないシナリオを含む候補敵集合の選択による悲観的な可能性($\textit{ii}$)に対処することで,二者ゲームを拡張する。
まず, 敵群が内部最適化問題を効率的に近似できることを示す。
次に,内部最適化における最悪の場合のパフォーマンスを,最低$k$の敵に対して平均的なパフォーマンスに置き換えることで,第2の問題に対処します。
提案手法を複数の MuJoCo 環境上で評価する。
実験の結果、我々のアプローチは一貫してより堅牢なポリシーを生成することが示された。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Safe Reinforcement Learning with Dual Robustness [10.455148541147796]
強化学習(RL)エージェントは敵の障害に対して脆弱である。
安全なRLとロバストなRLを統合するための体系的フレームワークを提案する。
また,デュアル・ロバスト・アクター・クリティック(DRAC)と呼ばれる実装のためのディープRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-09-13T09:34:21Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - Lower Difficulty and Better Robustness: A Bregman Divergence Perspective
for Adversarial Training [4.140025258774601]
本研究では, 対人訓練(AT)において得られる対人強靭性を, 最適化の難しさを軽減して改善することを検討した。
以上の知見にインスパイアされたFAITとMERの2つの手法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:09:14Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Who Is the Strongest Enemy? Towards Optimal and Efficient Evasion
Attacks in Deep RL [14.702446153750497]
本稿では,「アクター」と呼ばれる設計関数と「ディレクタ」と呼ばれるRLベースの学習者との協調により,最適な攻撃を見つけるための新たな攻撃手法を提案する。
提案アルゴリズムであるPA-ADは理論上最適であり,大きな状態空間を持つ環境下での従来のRLに基づく作業よりもはるかに効率的である。
論文 参考訳(メタデータ) (2021-06-09T14:06:53Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。