論文の概要: Deep Reinforcement Learning Policies Learn Shared Adversarial Features
Across MDPs
- arxiv url: http://arxiv.org/abs/2112.09025v1
- Date: Thu, 16 Dec 2021 17:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 13:46:46.637136
- Title: Deep Reinforcement Learning Policies Learn Shared Adversarial Features
Across MDPs
- Title(参考訳): 深層強化学習ポリシーはmdp間での相反的特徴の共有を学習する
- Authors: Ezgi Korkmaz
- Abstract要約: 本研究では, 意思決定境界と損失景観の類似性について, 州間およびMDP間で検討する枠組みを提案する。
我々はアーケード学習環境から様々なゲームで実験を行い、MDP間で神経政策の高感度方向が相関していることを発見した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of deep neural networks as function approximators has led to striking
progress for reinforcement learning algorithms and applications. Yet the
knowledge we have on decision boundary geometry and the loss landscape of
neural policies is still quite limited. In this paper we propose a framework to
investigate the decision boundary and loss landscape similarities across states
and across MDPs. We conduct experiments in various games from Arcade Learning
Environment, and discover that high sensitivity directions for neural policies
are correlated across MDPs. We argue that these high sensitivity directions
support the hypothesis that non-robust features are shared across training
environments of reinforcement learning agents. We believe our results reveal
fundamental properties of the environments used in deep reinforcement learning
training, and represent a tangible step towards building robust and reliable
deep reinforcement learning agents.
- Abstract(参考訳): 関数近似器としてのディープニューラルネットワークの利用は、強化学習アルゴリズムと応用において大きな進歩をもたらした。
しかし、決定境界幾何学とニューラルポリシーの損失景観に関する知識は、いまだに限られている。
本稿では,mdp間での意思決定境界と損失景観の類似性を検討する枠組みを提案する。
アーケード学習環境から様々なゲームで実験を行い,神経政策の高感度方向がmdp間で相関していることを見出した。
これらの高感度方向は、強化学習エージェントの訓練環境間で非ロバスト特徴が共有されるという仮説を支持している。
我々は,深層強化学習における環境の基本特性を明らかにするとともに,強固で信頼性の高い深層強化学習エージェントの構築に向けた具体的なステップを示す。
関連論文リスト
- Understanding and Diagnosing Deep Reinforcement Learning [14.141453107129403]
最近、バイオテクノロジーから自動化された金融システムまで、さまざまな設定にディープ・ニューラル・ポリシーがインストールされている。
本稿では,時間と空間の両面での深部神経政策決定の方向性を体系的に分析する理論的手法を提案する。
論文 参考訳(メタデータ) (2024-06-23T18:10:16Z) - Discovering Behavioral Modes in Deep Reinforcement Learning Policies
Using Trajectory Clustering in Latent Space [0.0]
本稿では,DRLポリシーの行動モードを調査するための新しいアプローチを提案する。
具体的には, Pairwise Controlled Manifold Approximation Projection (PaCMAP) を次元減少に用い, TRACLUS を軌道クラスタリングに用いた。
本手法は,多種多様な行動パターンと準最適選択をポリシーによって識別し,目標とする改善を可能にする。
論文 参考訳(メタデータ) (2024-02-20T11:50:50Z) - Detecting Adversarial Directions in Deep Reinforcement Learning to Make
Robust Decisions [8.173034693197351]
MDPにおける非破壊方向の存在を検出するための新しい手法を提案する。
本手法は, 安全観測と逆観測の基本的な切り離しの理論的基礎を提供する。
さらに, 提案手法を回避すべく, 非破壊方向が明示的に最適化されている場合においても, 提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-06-09T13:11:05Z) - Adversarial Robust Deep Reinforcement Learning Requires Redefining
Robustness [7.6146285961466]
我々は、高感度方向が深層神経政策の状況においてより豊富であることを示し、ブラックボックス設定でより自然な方法で見つけることができることを示した。
我々は,バニラ訓練技術が,最先端の対人訓練技術を通じて学んだ政策と比較して,より堅牢な政策を学習する結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-01-17T16:54:33Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Investigating Vulnerabilities of Deep Neural Policies [0.0]
深層ニューラルネットワークに基づく強化学習ポリシーは、入力に対する非受容的な逆転摂動に対して脆弱である。
近年の研究では, 対向的摂動に対する深部強化学習エージェントの堅牢性向上のためのいくつかの手法が提案されている。
エージェントが学習した神経政策に対する対人訓練の効果について検討した。
論文 参考訳(メタデータ) (2021-08-30T10:04:50Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Fusing the Old with the New: Learning Relative Camera Pose with
Geometry-Guided Uncertainty [91.0564497403256]
本稿では,ネットワークトレーニング中の2つの予測系間の確率的融合を含む新しい枠組みを提案する。
本ネットワークは,異なる対応間の強い相互作用を強制することにより学習を駆動する自己追跡グラフニューラルネットワークを特徴とする。
学習に適したモーションパーマリゼーションを提案し、難易度の高いDeMoNおよびScanNetデータセットで最新のパフォーマンスを達成できることを示します。
論文 参考訳(メタデータ) (2021-04-16T17:59:06Z) - Optimism in the Face of Adversity: Understanding and Improving Deep
Learning through Adversarial Robustness [63.627760598441796]
深層学習における対角的強靭性の分野を詳細に検討する。
直感的な対向例と深層ニューラルネットワークの幾何学的関係を強調した。
セキュリティを超えた敵の堅牢性の主な応用について概説する。
論文 参考訳(メタデータ) (2020-10-19T16:03:46Z) - Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve
Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。
予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-03-02T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。