論文の概要: Improving Robustness of Deep Reinforcement Learning Agents: Environment
Attacks based on Critic Networks
- arxiv url: http://arxiv.org/abs/2104.03154v1
- Date: Wed, 7 Apr 2021 14:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 13:02:58.170121
- Title: Improving Robustness of Deep Reinforcement Learning Agents: Environment
Attacks based on Critic Networks
- Title(参考訳): 深層強化学習エージェントのロバスト性向上:批判的ネットワークに基づく環境攻撃
- Authors: Lucas Schott, Manon C\'esaire, Hatem Hajri, Sylvain Lamprier
- Abstract要約: 最近の一連の作品は、環境の混乱を生み出すことに焦点を合わせている。
有意義な環境障害を発生させる文学の既存のアプローチは、敵対的強化学習法である。
提案手法は,より高速で軽量でありながら,既存の文献の手法よりも方針の堅牢性が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 12.521494095948068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve policy robustness of deep reinforcement learning agents, a line of
recent works focus on producing disturbances of the environment. Existing
approaches of the literature to generate meaningful disturbances of the
environment are adversarial reinforcement learning methods. These methods set
the problem as a two-player game between the protagonist agent, which learns to
perform a task in an environment, and the adversary agent, which learns to
disturb the protagonist via modifications of the considered environment. Both
protagonist and adversary are trained with deep reinforcement learning
algorithms. Alternatively, we propose in this paper to build on gradient-based
adversarial attacks, usually used for classification tasks for instance, that
we apply on the critic network of the protagonist to identify efficient
disturbances of the environment. Rather than learning an attacker policy, which
usually reveals as very complex and unstable, we leverage the knowledge of the
critic network of the protagonist, to dynamically complexify the task at each
step of the learning process. We show that our method, while being faster and
lighter, leads to significantly better improvements in policy robustness than
existing methods of the literature.
- Abstract(参考訳): 深層強化学習エージェントの政策ロバスト性を改善するため,近年の一連の研究は環境の乱れの発生に焦点を当てている。
環境に有意義な乱れをもたらす文献の既存のアプローチは、敵の強化学習法である。
これらの方法は、環境下でタスクを実行することを学習する主人公エージェントと、考慮された環境の修正を通じて主人公を乱すことを学習する敵エージェントの2人プレイヤゲームとして問題を設定する。
主人公も敵も深層強化学習アルゴリズムで訓練されている。
また,本論文では,例えば分類タスクに使用される勾配に基づく逆攻撃を基盤として,主人公の批判ネットワークに適用し,環境の効率的な乱れを識別する手法を提案する。
通常は非常に複雑で不安定な攻撃方針を学ぶのではなく、主人公の批判ネットワークの知識を活用して、学習プロセスの各ステップにおけるタスクを動的に複雑化する。
提案手法は,より高速で軽量でありながら,既存の文献の手法よりも方針の堅牢性が大幅に向上することを示す。
関連論文リスト
- Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Unsupervised Reinforcement Learning in Multiple Environments [37.5349071806395]
複数の環境のクラスにおける教師なし強化学習の課題に対処する。
本稿では,クラス間のインタラクションを通じて導入対象を最適化するために,ポリシー勾配アルゴリズムである$alpha$MEPOLを提案する。
事前学習した探索戦略から,強化学習が大きなメリットがあることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T09:54:37Z) - Attaining Interpretability in Reinforcement Learning via Hierarchical
Primitive Composition [3.1078562713129765]
本稿では,従来の課題を階層構造に分解して軽減する階層型強化学習アルゴリズムを提案する。
提案手法は,6自由度マニピュレータを用いてピック・アンド・プレイス・タスクを解くことで,実際にどのように適用できるかを示す。
論文 参考訳(メタデータ) (2021-10-05T05:59:31Z) - Understanding Adversarial Attacks on Observations in Deep Reinforcement
Learning [32.12283927682007]
深層強化学習モデルは、観測を操作することで被害者の総報酬を減少させる敵攻撃に対して脆弱である。
関数空間における逆攻撃の問題を修正し、以前の勾配に基づく攻撃をいくつかの部分空間に分割する。
第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングするトラジェクトリのセットを発見する。
本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。
論文 参考訳(メタデータ) (2021-06-30T07:41:51Z) - Policy Teaching in Reinforcement Learning via Environment Poisoning
Attacks [33.41280432984183]
本研究では,攻撃者が学習環境を害し,攻撃者が選択したターゲットポリシーの実行を強制する強化学習に対するセキュリティ上の脅威について検討する。
被害者として、無限水平問題設定における報酬を最大化するポリシーを見つけることを目的としたRLエージェントを考える。
論文 参考訳(メタデータ) (2020-11-21T16:54:45Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Policy Teaching via Environment Poisoning: Training-time Adversarial
Attacks against Reinforcement Learning [33.41280432984183]
本研究では,攻撃者が学習環境を害してエージェントに目標ポリシーの実行を強制する強化学習に対するセキュリティ上の脅威について検討する。
被害者として、未報告の無限水平問題設定における平均報酬を最大化するポリシーを見つけることを目的としたRLエージェントを考える。
論文 参考訳(メタデータ) (2020-03-28T23:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。