論文の概要: Understanding and Diagnosing Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.16979v1
- Date: Sun, 23 Jun 2024 18:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 19:00:25.391268
- Title: Understanding and Diagnosing Deep Reinforcement Learning
- Title(参考訳): 深層強化学習の理解と診断
- Authors: Ezgi Korkmaz,
- Abstract要約: 最近、バイオテクノロジーから自動化された金融システムまで、さまざまな設定にディープ・ニューラル・ポリシーがインストールされている。
本稿では,時間と空間の両面での深部神経政策決定の方向性を体系的に分析する理論的手法を提案する。
- 参考スコア(独自算出の注目度): 14.141453107129403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural policies have recently been installed in a diverse range of settings, from biotechnology to automated financial systems. However, the utilization of deep neural networks to approximate the value function leads to concerns on the decision boundary stability, in particular, with regard to the sensitivity of policy decision making to indiscernible, non-robust features due to highly non-convex and complex deep neural manifolds. These concerns constitute an obstruction to understanding the reasoning made by deep neural policies, and their foundational limitations. Hence, it is crucial to develop techniques that aim to understand the sensitivities in the learnt representations of neural network policies. To achieve this we introduce a theoretically founded method that provides a systematic analysis of the unstable directions in the deep neural policy decision boundary across both time and space. Through experiments in the Arcade Learning Environment (ALE), we demonstrate the effectiveness of our technique for identifying correlated directions of instability, and for measuring how sample shifts remold the set of sensitive directions in the neural policy landscape. Most importantly, we demonstrate that state-of-the-art robust training techniques yield learning of disjoint unstable directions, with dramatically larger oscillations over time, when compared to standard training. We believe our results reveal the fundamental properties of the decision process made by reinforcement learning policies, and can help in constructing reliable and robust deep neural policies.
- Abstract(参考訳): 最近、バイオテクノロジーから自動化された金融システムまで、さまざまな設定にディープ・ニューラル・ポリシーがインストールされている。
しかし、値関数を近似するディープニューラルネットワークの利用は、特に、非常に非凸で複雑なディープニューラル多様体による不明瞭で非破壊的な特徴を判断する政策決定の感度に関して、決定境界安定性に関する懸念を引き起こす。
これらの懸念は、ディープ・ニューラル・ポリシーによる推論とその基礎的限界を理解するのに障害となる。
したがって、ニューラルネットワークポリシーの学習的表現における感性を理解するための技術を開発することが不可欠である。
これを実現するために、時間と空間の両方にわたって深い神経政策決定境界における不安定な方向を体系的に解析する理論的な手法を導入する。
アーケード学習環境(Arcade Learning Environment, ALE)の実験を通じて、我々は、不安定性の関連方向を特定するための手法の有効性を実証し、サンプルシフトがニューラルポリシーのランドスケープにおけるセンシティブな方向のセットをどのように作り直すかを測定する。
最も重要なことは、最先端の堅牢なトレーニング技術が、標準トレーニングと比較して、時間とともに劇的に大きな振動を伴う不安定な方向の学習をもたらすことを示すことである。
本結果は,強化学習政策による決定プロセスの基本的特性を明らかにし,信頼性と堅牢な深層神経政策の構築に有効であると考えている。
関連論文リスト
- The Boundaries of Verifiable Accuracy, Robustness, and Generalisation in Deep Learning [71.14237199051276]
経験的リスクを最小限に抑えるため,古典的な分布に依存しないフレームワークとアルゴリズムを検討する。
理想的な安定かつ正確なニューラルネットワークの計算と検証が極めて難しいタスク群が存在することを示す。
論文 参考訳(メタデータ) (2023-09-13T16:33:27Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Detecting Adversarial Directions in Deep Reinforcement Learning to Make
Robust Decisions [8.173034693197351]
MDPにおける非破壊方向の存在を検出するための新しい手法を提案する。
本手法は, 安全観測と逆観測の基本的な切り離しの理論的基礎を提供する。
さらに, 提案手法を回避すべく, 非破壊方向が明示的に最適化されている場合においても, 提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-06-09T13:11:05Z) - Adversarial Robust Deep Reinforcement Learning Requires Redefining
Robustness [7.6146285961466]
我々は、高感度方向が深層神経政策の状況においてより豊富であることを示し、ブラックボックス設定でより自然な方法で見つけることができることを示した。
我々は,バニラ訓練技術が,最先端の対人訓練技術を通じて学んだ政策と比較して,より堅牢な政策を学習する結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-01-17T16:54:33Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Deep Reinforcement Learning Policies Learn Shared Adversarial Features
Across MDPs [0.0]
本研究では, 意思決定境界と損失景観の類似性について, 州間およびMDP間で検討する枠組みを提案する。
我々はアーケード学習環境から様々なゲームで実験を行い、MDP間で神経政策の高感度方向が相関していることを発見した。
論文 参考訳(メタデータ) (2021-12-16T17:10:41Z) - Investigating Vulnerabilities of Deep Neural Policies [0.0]
深層ニューラルネットワークに基づく強化学習ポリシーは、入力に対する非受容的な逆転摂動に対して脆弱である。
近年の研究では, 対向的摂動に対する深部強化学習エージェントの堅牢性向上のためのいくつかの手法が提案されている。
エージェントが学習した神経政策に対する対人訓練の効果について検討した。
論文 参考訳(メタデータ) (2021-08-30T10:04:50Z) - Robust Explainability: A Tutorial on Gradient-Based Attribution Methods
for Deep Neural Networks [1.5854438418597576]
本稿では、ディープニューラルネットワークの決定を説明するための勾配に基づく解釈可能性法を提案する。
敵の頑健さが意味のある説明を持つ上で果たす役割について論じる。
我々は、堅牢性と説明可能性の収束における研究の今後の方向性を結論づける。
論文 参考訳(メタデータ) (2021-07-23T18:06:29Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。
ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。
提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文 参考訳(メタデータ) (2020-09-01T09:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。