論文の概要: Visual Explanation using Attention Mechanism in Actor-Critic-based Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.04067v1
- Date: Sat, 6 Mar 2021 08:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:29:27.221185
- Title: Visual Explanation using Attention Mechanism in Actor-Critic-based Deep
Reinforcement Learning
- Title(参考訳): Actor-Critic-based Deep Reinforcement Learningにおける注意機構を用いた視覚説明
- Authors: Hidenori Itaya, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu
Fujiyoshi, Komei Sugiura
- Abstract要約: A3C (Asynchronous Advantage Actor-Critic) に注意機構を導入するMask-Attention A3C (Mask A3C) を提案する。
A3Cは、画像から特徴を抽出する特徴抽出器と、ポリシーを出力するポリシーブランチと、状態値を出力する値ブランチとから構成される。
Atari 2600のゲーム用のマスクアテンションマップを視覚化し、エージェントの意思決定の背後にある理由を簡単に分析できることを発見しました。
- 参考スコア(独自算出の注目度): 9.49864824780503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has great potential for acquiring the
optimal action in complex environments such as games and robot control.
However, it is difficult to analyze the decision-making of the agent, i.e., the
reasons it selects the action acquired by learning. In this work, we propose
Mask-Attention A3C (Mask A3C), which introduces an attention mechanism into
Asynchronous Advantage Actor-Critic (A3C), which is an actor-critic-based DRL
method, and can analyze the decision-making of an agent in DRL. A3C consists of
a feature extractor that extracts features from an image, a policy branch that
outputs the policy, and a value branch that outputs the state value. In this
method, we focus on the policy and value branches and introduce an attention
mechanism into them. The attention mechanism applies a mask processing to the
feature maps of each branch using mask-attention that expresses the judgment
reason for the policy and state value with a heat map. We visualized
mask-attention maps for games on the Atari 2600 and found we could easily
analyze the reasons behind an agent's decision-making in various game tasks.
Furthermore, experimental results showed that the agent could achieve a higher
performance by introducing the attention mechanism.
- Abstract(参考訳): 深層強化学習(DRL)は,ゲームやロボット制御といった複雑な環境において,最適な行動を得る大きな可能性を持っている。
しかし,エージェントの意思決定,すなわち学習によって獲得された行動を選択する理由を分析することは困難である。
本研究では,アクタ批判に基づくDRL手法であるAsynchronous Advantage Actor-Critic(A3C)に注意機構を導入し,DRLにおけるエージェントの意思決定を解析できるMask-Attention A3C(Mask A3C)を提案する。
A3Cは、画像から特徴を抽出する特徴抽出器と、ポリシーを出力するポリシーブランチと、状態値を出力する値ブランチとから構成される。
本手法では,政策と価値の分岐に焦点をあて,それらに注意機構を導入する。
注意メカニズムは、ヒートマップでポリシーと状態値の判断理由を表現するマスクアテンションを使用して、各ブランチの特徴マップにマスク処理を適用します。
Atari 2600のゲームにおけるマスクアテンションマップを可視化し、エージェントの意思決定の背後にある理由を様々なゲームタスクで簡単に分析できることを発見しました。
さらに, 実験結果から, 注意メカニズムの導入により, より高い性能を発揮できることが示された。
関連論文リスト
- Why the Agent Made that Decision: Explaining Deep Reinforcement Learning with Vision Masks [11.068220265247385]
VisionMaskは、エージェントの視覚入力における最も重要な領域を特定するために、エンドツーエンドで訓練されたスタンドアロンの説明モデルである。
挿入精度は14.9%、F1スコアは30.08%向上し、選択された視覚的説明から元のアクションを再現する。
論文 参考訳(メタデータ) (2024-11-25T06:11:46Z) - DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Agent Attention: On the Integration of Softmax and Linear Attention [70.06472039237354]
本稿では,計算効率と表現力のバランスをとるために,新しい注意パラダイムであるエージェント注意(Agent Attention)を提案する。
提案するエージェントアテンションは,線形アテンションの一般化形式と等価であることを示す。
特に、エージェントの注意は高解像度のシナリオにおいて顕著な性能を示しており、その線形の注意の性質に依拠している。
論文 参考訳(メタデータ) (2023-12-14T16:26:29Z) - Advantage Actor-Critic with Reasoner: Explaining the Agent's Behavior
from an Exploratory Perspective [19.744322603358402]
我々は、Reasoner (A2CR) を用いたアドバンテージ・アクター・クライシスト(アドバンテージ・アクター・クライト)を提案する。
A2CRはエージェントの意思決定プロセスを理解するために、より包括的で解釈可能なパラダイムを自動生成する。
目的に基づく正当性、早期障害検出、モデル監視など、さまざまな機能を提供します。
論文 参考訳(メタデータ) (2023-09-09T07:19:20Z) - Action Q-Transformer: Visual Explanation in Deep Reinforcement Learning
with Encoder-Decoder Model using Action Query [7.290230029542328]
Action Q-Transformer (AQT)は、Qラーニングに基づくDRL法にトランスフォーマーエンコーダデコーダ構造を導入する。
Atari 2600ゲームにおける注意の可視化は,様々なゲームタスクにおけるエージェントの意思決定の詳細な分析を可能にする。
論文 参考訳(メタデータ) (2023-06-24T07:06:14Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Automated Machine Learning, Bounded Rationality, and Rational
Metareasoning [62.997667081978825]
有界合理性の観点から、自動機械学習(AutoML)と関連する問題を考察する。
リソース境界の下でアクションを取るには、エージェントがこれらのリソースを最適な方法で利用する方法を反映する必要がある。
論文 参考訳(メタデータ) (2021-09-10T09:10:20Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Self-Supervised Discovering of Interpretable Features for Reinforcement
Learning [40.52278913726904]
深層強化学習のための自己教師付き解釈可能なフレームワークを提案する。
タスク関連情報を強調するための細かな注意マスクを作成するために、自己教師型解釈ネットワーク(SSINet)が使用される。
Atari 2600とDuckietownは、自動運転車のシミュレータ環境として難易度の高い環境である。
論文 参考訳(メタデータ) (2020-03-16T08:26:17Z) - Learn to Interpret Atari Agents [106.21468537372995]
リージョン・センシティブ・レインボー(Rerea-sensitive Rainbow、RS-Rainbow)は、Qネットワークの強力なエージェントであるレインボーをベースとした、エンドツーエンドのトレーニング可能なネットワークである。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンド・ツー・エンドのトレーニング可能なネットワークである。
論文 参考訳(メタデータ) (2018-12-29T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。