論文の概要: Learn to Interpret Atari Agents
- arxiv url: http://arxiv.org/abs/1812.11276v3
- Date: Wed, 5 Apr 2023 20:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 19:02:26.164790
- Title: Learn to Interpret Atari Agents
- Title(参考訳): atariエージェントの解釈を学ぶ
- Authors: Zhao Yang and Song Bai and Li Zhang and Philip H.S. Torr
- Abstract要約: リージョン・センシティブ・レインボー(Rerea-sensitive Rainbow、RS-Rainbow)は、Qネットワークの強力なエージェントであるレインボーをベースとした、エンドツーエンドのトレーニング可能なネットワークである。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンド・ツー・エンドのトレーニング可能なネットワークである。
- 参考スコア(独自算出の注目度): 106.21468537372995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep reinforcement learning (DeepRL) agents surpass human-level performance
in many tasks. However, the direct mapping from states to actions makes it hard
to interpret the rationale behind the decision-making of the agents. In
contrast to previous a-posteriori methods for visualizing DeepRL policies, in
this work, we propose to equip the DeepRL model with an innate visualization
ability. Our proposed agent, named region-sensitive Rainbow (RS-Rainbow), is an
end-to-end trainable network based on the original Rainbow, a powerful deep
Q-network agent. It learns important regions in the input domain via an
attention module. At inference time, after each forward pass, we can visualize
regions that are most important to decision-making by backpropagating gradients
from the attention module to the input frames. The incorporation of our
proposed module not only improves model interpretability, but leads to
performance improvement. Extensive experiments on games from the Atari 2600
suite demonstrate the effectiveness of RS-Rainbow.
- Abstract(参考訳): deep reinforcement learning (deeprl)エージェントは多くのタスクで人間レベルのパフォーマンスを上回っています。
しかし、状態から行動への直接的なマッピングは、エージェントの意思決定の背後にある根拠を理解するのを難しくする。
本稿では,DeepRLのポリシーを視覚化する従来のa-posteriori法とは対照的に,本研究では,DeepRLモデルに固有の視覚化能力を持たせることを提案する。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンドツーエンドのトレーニングネットワークである。
注意モジュールを通じて入力領域の重要な領域を学習する。
推測時,各前方通過後,注目モジュールから入力フレームへの勾配を逆伝搬することにより,意思決定において最も重要な領域を可視化することができる。
提案モジュールの組み込みは,モデル解釈可能性の向上だけでなく,性能向上につながる。
atari 2600のゲームに関する広範囲な実験がrs-rainbowの有効性を実証している。
関連論文リスト
- An Examination of Offline-Trained Encoders in Vision-Based Deep Reinforcement Learning for Autonomous Driving [0.0]
部分観測可能なマルコフ決定過程(POMDP)における深層強化学習(DRL)の課題に関する研究
我々の研究は、オフラインで訓練されたエンコーダを用いて、自己教師付き学習を通じて大規模なビデオデータセットを活用し、一般化可能な表現を学習する。
CARLAシミュレータにおいて,BDD100Kの運転映像から得られた特徴を直接転送することで,車線追従や衝突回避を実現することができることを示す。
論文 参考訳(メタデータ) (2024-09-02T14:16:23Z) - SAFE-RL: Saliency-Aware Counterfactual Explainer for Deep Reinforcement Learning Policies [13.26174103650211]
学習されたポリシーの説明可能性の欠如は、自動運転システムのような安全クリティカルなアプリケーションへの取り込みを妨げる。
対実的(CF)説明は、最近、ブラックボックスディープラーニング(DL)モデルを解釈する能力で有名になった。
そこで本稿では,過去の観測状態の列にまたがる最も影響力のある入力画素を特定するために,サリエンシマップを提案する。
我々は,ADS,Atari Pong,Pacman,Space-invadersゲームなど,多種多様な領域におけるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2024-04-28T21:47:34Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Agent-Controller Representations: Principled Offline RL with Rich
Exogenous Information [49.06422815335159]
オフラインで収集したデータからエージェントを制御する学習は、実世界の強化学習(RL)の応用にとって不可欠である
本稿では,この問題を研究可能なオフラインRLベンチマークを提案する。
現代の表現学習技術は、ノイズが複雑で時間依存のプロセスであるデータセットで失敗する可能性がある。
論文 参考訳(メタデータ) (2022-10-31T22:12:48Z) - Frustratingly Easy Regularization on Representation Can Boost Deep
Reinforcement Learning [9.072416458330268]
そこで本研究では,$Q$-networkとその対象である$Q$-networkの学習表現が,理論上,良質な識別可能な表現特性を満たすことを実証する。
本稿では,内部表現の明示的正規化を通じて識別可能な表現特性を維持することを目的とした,表現の簡易正規化によるポリシー評価を提案する。
PEERはPyBulletの4つの環境での最先端のパフォーマンス、DMControlの12タスク中9、Atariの26ゲーム中19タスクを実現している。
論文 参考訳(メタデータ) (2022-05-29T02:29:32Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Explaining Deep Reinforcement Learning Agents In The Atari Domain
through a Surrogate Model [78.69367679848632]
深部RLエージェントの説明を導出するための軽量で効果的な手法について述べる。
提案手法は,RLエージェントの画素ベース入力から解釈可能な知覚的入力表現への変換に依存する。
次に、ターゲットの深いRLエージェントの挙動を再現するために、それ自身解釈可能な代理モデルを訓練する。
論文 参考訳(メタデータ) (2021-10-07T05:01:44Z) - Are Gradient-based Saliency Maps Useful in Deep Reinforcement Learning? [4.254099382808598]
Deep Reinforcement Learning (DRL)は、古典的なReinforcement LearningアルゴリズムとDeep Neural Networksを接続する。
DRLの問題は、CNNがブラックボックスであり、エージェントの意思決定プロセスを理解することは困難である。
この研究は、画像分類の分野からDeep Reinforcement Learningの分野まで、よく知られた視覚化手法をいくつかもたらす。
論文 参考訳(メタデータ) (2020-12-02T15:38:36Z) - Context-Aware RCNN: A Baseline for Action Detection in Videos [66.16989365280938]
まず、認識精度がアクターのバウンディングボックスサイズと高い相関関係があることを経験的に見出した。
我々はRCNNを再検討し、アクター周辺の画像パッチをトリミングおよびサイズ変更することでアクター中心のアクション認識を行う。
アクターバウンディングボックスを少し拡張し、コンテキスト機能を融合することで、パフォーマンスをさらに向上できることがわかった。
論文 参考訳(メタデータ) (2020-07-20T03:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。