論文の概要: Detecting Adversarial Directions in Deep Reinforcement Learning to Make
Robust Decisions
- arxiv url: http://arxiv.org/abs/2306.05873v1
- Date: Fri, 9 Jun 2023 13:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 13:19:51.407285
- Title: Detecting Adversarial Directions in Deep Reinforcement Learning to Make
Robust Decisions
- Title(参考訳): 深い強化学習における逆方向の検出とロバストな決定
- Authors: Ezgi Korkmaz, Jonah Brown-Cohen
- Abstract要約: MDPにおける非破壊方向の存在を検出するための新しい手法を提案する。
本手法は, 安全観測と逆観測の基本的な切り離しの理論的基礎を提供する。
さらに, 提案手法を回避すべく, 非破壊方向が明示的に最適化されている場合においても, 提案手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 8.173034693197351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning in MDPs with highly complex state representations is currently
possible due to multiple advancements in reinforcement learning algorithm
design. However, this incline in complexity, and furthermore the increase in
the dimensions of the observation came at the cost of volatility that can be
taken advantage of via adversarial attacks (i.e. moving along worst-case
directions in the observation space). To solve this policy instability problem
we propose a novel method to detect the presence of these non-robust directions
via local quadratic approximation of the deep neural policy loss. Our method
provides a theoretical basis for the fundamental cut-off between safe
observations and adversarial observations. Furthermore, our technique is
computationally efficient, and does not depend on the methods used to produce
the worst-case directions. We conduct extensive experiments in the Arcade
Learning Environment with several different adversarial attack techniques. Most
significantly, we demonstrate the effectiveness of our approach even in the
setting where non-robust directions are explicitly optimized to circumvent our
proposed method.
- Abstract(参考訳): 高度に複雑な状態表現を持つMDPでの学習は、強化学習アルゴリズムの設計の進歩により、現在可能である。
しかし、このことは複雑さを傾け、さらに観測の寸法の増大は、敵対的な攻撃(すなわち観測空間の最悪の場合の方向に沿って移動する)によって得られる不安定さの犠牲になった。
この政策不安定性問題を解決するために,ニューラルポリシー損失の局所的2次近似を用いて,これらの非破壊方向の存在を検出する新しい手法を提案する。
本手法は, 安全観測と逆観測の基本的な切り離しの理論的基礎を提供する。
さらに,本手法は計算効率が良く,最悪の場合の方向を推定する手法には依存しない。
アーケード学習環境において,複数の異なる攻撃手法を用いて大規模な実験を行う。
さらに,提案手法を回避すべく,非破壊方向が明示的に最適化されている場合においても,提案手法の有効性を示す。
関連論文リスト
- Understanding and Diagnosing Deep Reinforcement Learning [14.141453107129403]
最近、バイオテクノロジーから自動化された金融システムまで、さまざまな設定にディープ・ニューラル・ポリシーがインストールされている。
本稿では,時間と空間の両面での深部神経政策決定の方向性を体系的に分析する理論的手法を提案する。
論文 参考訳(メタデータ) (2024-06-23T18:10:16Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Deep Reinforcement Learning Policies Learn Shared Adversarial Features
Across MDPs [0.0]
本研究では, 意思決定境界と損失景観の類似性について, 州間およびMDP間で検討する枠組みを提案する。
我々はアーケード学習環境から様々なゲームで実験を行い、MDP間で神経政策の高感度方向が相関していることを発見した。
論文 参考訳(メタデータ) (2021-12-16T17:10:41Z) - Surveillance Evasion Through Bayesian Reinforcement Learning [78.79938727251594]
ランダム終端の強度が全く不明な2次元連続経路計画問題を考える。
これらのオブザーバーの監視強度は未知であり、反復的な経路計画を通じて学ぶ必要がある。
論文 参考訳(メタデータ) (2021-09-30T02:29:21Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Efficient Exploration in Constrained Environments with Goal-Oriented
Reference Path [15.679210057474922]
環境マップに基づいて衝突のない経路を予測できる深層畳み込みネットワークを訓練する。
これは強化学習アルゴリズムによって、経路を忠実に追従することを学ぶために使われる。
提案手法は,新しい環境へのサンプル効率と一般化能力を継続的に改善することを示す。
論文 参考訳(メタデータ) (2020-03-03T17:07:47Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。