論文の概要: Are Gradient-based Saliency Maps Useful in Deep Reinforcement Learning?
- arxiv url: http://arxiv.org/abs/2012.01281v1
- Date: Wed, 2 Dec 2020 15:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:51:34.855580
- Title: Are Gradient-based Saliency Maps Useful in Deep Reinforcement Learning?
- Title(参考訳): 勾配に基づく塩分マップは深層強化学習に有用か?
- Authors: Matthias Rosynski and Frank Kirchner and Matias Valdenegro-Toro
- Abstract要約: Deep Reinforcement Learning (DRL)は、古典的なReinforcement LearningアルゴリズムとDeep Neural Networksを接続する。
DRLの問題は、CNNがブラックボックスであり、エージェントの意思決定プロセスを理解することは困難である。
この研究は、画像分類の分野からDeep Reinforcement Learningの分野まで、よく知られた視覚化手法をいくつかもたらす。
- 参考スコア(独自算出の注目度): 4.254099382808598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) connects the classic Reinforcement Learning
algorithms with Deep Neural Networks. A problem in DRL is that CNNs are
black-boxes and it is hard to understand the decision-making process of agents.
In order to be able to use RL agents in highly dangerous environments for
humans and machines, the developer needs a debugging tool to assure that the
agent does what is expected. Currently, rewards are primarily used to interpret
how well an agent is learning. However, this can lead to deceptive conclusions
if the agent receives more rewards by memorizing a policy and not learning to
respond to the environment. In this work, it is shown that this problem can be
recognized with the help of gradient visualization techniques. This work brings
some of the best-known visualization methods from the field of image
classification to the area of Deep Reinforcement Learning. Furthermore, two new
visualization techniques have been developed, one of which provides
particularly good results. It is being proven to what extent the algorithms can
be used in the area of Reinforcement learning. Also, the question arises on how
well the DRL algorithms can be visualized across different environments with
varying visualization techniques.
- Abstract(参考訳): Deep Reinforcement Learning (DRL)は、古典的なReinforcement LearningアルゴリズムとDeep Neural Networksを接続する。
DRLの問題は、CNNがブラックボックスであり、エージェントの意思決定プロセスを理解することは困難である。
人間や機械にとって非常に危険な環境でRLエージェントを使用できるためには、開発者はエージェントが期待していることを確実にするデバッグツールが必要である。
現在、報酬は主にエージェントがいかにうまく学習しているかを解釈するために使われる。
しかし、もしエージェントがポリシーを暗記し、環境に反応する学習をしないことでより多くの報酬を受け取ると、これは偽りの結論につながる可能性がある。
本研究では,勾配可視化技術を用いてこの問題を認識できることを実証する。
この研究は、画像分類の分野からDeep Reinforcement Learningの分野まで、よく知られた視覚化手法をいくつかもたらす。
さらに、2つの新しい可視化技術が開発され、そのうちの1つは特に良い結果をもたらす。
強化学習の分野において、アルゴリズムがどの程度使用できるかが証明されている。
また、drlアルゴリズムが様々な環境にまたがってどのように可視化できるかという問題も生じている。
関連論文リスト
- DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Backdoor Attack Detection in Computer Vision by Applying Matrix
Factorization on the Weights of Deep Networks [6.44397009982949]
本稿では,事前訓練したDNNの重みから特徴を抽出するバックドア検出手法を提案する。
他の検出技術と比較して、これはトレーニングデータを必要としないなど、多くのメリットがある。
提案手法は, 競合するアルゴリズムよりも効率性が高く, より正確であり, 深層学習とAIの安全な適用を確実にするのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T20:20:18Z) - A Survey on Explainable Reinforcement Learning: Concepts, Algorithms,
Challenges [38.70863329476517]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。
励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。
この問題を緩和するために、本質的な解釈可能性やポストホックな説明可能性を構築することにより、知的エージェントの内部動作に光を放つための大量の文献が提案されている。
論文 参考訳(メタデータ) (2022-11-12T13:52:06Z) - Deep Reinforcement Learning Using a Low-Dimensional Observation Filter
for Visual Complex Video Game Playing [1.2468700211588883]
高次元の観測空間、フレーム単位のフレームから大量のデータを処理する必要があるため、エージェントのアクションはディープニューラルネットワークポリシーに従って計算される。
本稿では,深層Qネットワークエージェントが,Neon Driveと呼ばれる,視覚的に複雑で現代的なビデオゲームでうまく遊べる低次元観察フィルタを提案する。
論文 参考訳(メタデータ) (2022-04-24T22:17:08Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Learn to Interpret Atari Agents [106.21468537372995]
リージョン・センシティブ・レインボー(Rerea-sensitive Rainbow、RS-Rainbow)は、Qネットワークの強力なエージェントであるレインボーをベースとした、エンドツーエンドのトレーニング可能なネットワークである。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンド・ツー・エンドのトレーニング可能なネットワークである。
論文 参考訳(メタデータ) (2018-12-29T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。