論文の概要: Adversarial Robust Deep Reinforcement Learning Requires Redefining
Robustness
- arxiv url: http://arxiv.org/abs/2301.07487v1
- Date: Tue, 17 Jan 2023 16:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 15:58:41.238102
- Title: Adversarial Robust Deep Reinforcement Learning Requires Redefining
Robustness
- Title(参考訳): 対人ロバスト深層強化学習はロバスト性を再定義する必要がある
- Authors: Ezgi Korkmaz
- Abstract要約: 我々は、高感度方向が深層神経政策の状況においてより豊富であることを示し、ブラックボックス設定でより自然な方法で見つけることができることを示した。
我々は,バニラ訓練技術が,最先端の対人訓練技術を通じて学んだ政策と比較して,より堅牢な政策を学習する結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 7.6146285961466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from raw high dimensional data via interaction with a given
environment has been effectively achieved through the utilization of deep
neural networks. Yet the observed degradation in policy performance caused by
imperceptible worst-case policy dependent translations along high sensitivity
directions (i.e. adversarial perturbations) raises concerns on the robustness
of deep reinforcement learning policies. In our paper, we show that these high
sensitivity directions do not lie only along particular worst-case directions,
but rather are more abundant in the deep neural policy landscape and can be
found via more natural means in a black-box setting. Furthermore, we show that
vanilla training techniques intriguingly result in learning more robust
policies compared to the policies learnt via the state-of-the-art adversarial
training techniques. We believe our work lays out intriguing properties of the
deep reinforcement learning policy manifold and our results can help to build
robust and generalizable deep reinforcement learning policies.
- Abstract(参考訳): 与えられた環境とのインタラクションによる生の高次元データからの学習は、ディープニューラルネットワークの利用によって効果的に実現されている。
しかし、高感度方向(すなわち逆行性摂動)に沿った過度な最悪の政策依存翻訳によって引き起こされる政策性能の低下は、深層強化学習政策の堅牢性に懸念を生じさせる。
本稿では,これらの高感度方向が特定の最悪ケース方向に沿ってのみ存在するのではなく,深層神経政策の状況においてより豊富であり,ブラックボックス設定においてより自然な手段で探索できることを示す。
さらに,バニラの訓練技術は,最先端の対向訓練技術を用いて学習した政策よりも,より強固な方針を学べることにも興味をそそる。
我々の研究は、深層強化学習政策多様体の興味深い特性を明らかにし、その結果が堅牢で一般化可能な深層強化学習政策の構築に役立つと信じている。
関連論文リスト
- Understanding and Diagnosing Deep Reinforcement Learning [14.141453107129403]
最近、バイオテクノロジーから自動化された金融システムまで、さまざまな設定にディープ・ニューラル・ポリシーがインストールされている。
本稿では,時間と空間の両面での深部神経政策決定の方向性を体系的に分析する理論的手法を提案する。
論文 参考訳(メタデータ) (2024-06-23T18:10:16Z) - Detecting Adversarial Directions in Deep Reinforcement Learning to Make
Robust Decisions [8.173034693197351]
MDPにおける非破壊方向の存在を検出するための新しい手法を提案する。
本手法は, 安全観測と逆観測の基本的な切り離しの理論的基礎を提供する。
さらに, 提案手法を回避すべく, 非破壊方向が明示的に最適化されている場合においても, 提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-06-09T13:11:05Z) - Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。
期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。
このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文 参考訳(メタデータ) (2023-05-31T14:59:12Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Deep Reinforcement Learning Policies Learn Shared Adversarial Features
Across MDPs [0.0]
本研究では, 意思決定境界と損失景観の類似性について, 州間およびMDP間で検討する枠組みを提案する。
我々はアーケード学習環境から様々なゲームで実験を行い、MDP間で神経政策の高感度方向が相関していることを発見した。
論文 参考訳(メタデータ) (2021-12-16T17:10:41Z) - Where Did You Learn That From? Surprising Effectiveness of Membership
Inference Attacks Against Temporally Correlated Data in Deep Reinforcement
Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。
本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-08T23:44:57Z) - Investigating Vulnerabilities of Deep Neural Policies [0.0]
深層ニューラルネットワークに基づく強化学習ポリシーは、入力に対する非受容的な逆転摂動に対して脆弱である。
近年の研究では, 対向的摂動に対する深部強化学習エージェントの堅牢性向上のためのいくつかの手法が提案されている。
エージェントが学習した神経政策に対する対人訓練の効果について検討した。
論文 参考訳(メタデータ) (2021-08-30T10:04:50Z) - Improving Robustness of Deep Reinforcement Learning Agents: Environment
Attacks based on Critic Networks [12.521494095948068]
最近の一連の作品は、環境の混乱を生み出すことに焦点を合わせている。
有意義な環境障害を発生させる文学の既存のアプローチは、敵対的強化学習法である。
提案手法は,より高速で軽量でありながら,既存の文献の手法よりも方針の堅牢性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-04-07T14:37:23Z) - Optimism in the Face of Adversity: Understanding and Improving Deep
Learning through Adversarial Robustness [63.627760598441796]
深層学習における対角的強靭性の分野を詳細に検討する。
直感的な対向例と深層ニューラルネットワークの幾何学的関係を強調した。
セキュリティを超えた敵の堅牢性の主な応用について概説する。
論文 参考訳(メタデータ) (2020-10-19T16:03:46Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。