論文の概要: Action Q-Transformer: Visual Explanation in Deep Reinforcement Learning
with Encoder-Decoder Model using Action Query
- arxiv url: http://arxiv.org/abs/2306.13879v1
- Date: Sat, 24 Jun 2023 07:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 18:42:15.757118
- Title: Action Q-Transformer: Visual Explanation in Deep Reinforcement Learning
with Encoder-Decoder Model using Action Query
- Title(参考訳): Action Q-Transformer:アクションクエリを用いたエンコーダ・デコーダモデルによる深層強化学習における視覚的説明
- Authors: Hidenori Itaya, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu
Fujiyoshi, Komei Sugiura
- Abstract要約: Action Q-Transformer (AQT)は、Qラーニングに基づくDRL法にトランスフォーマーエンコーダデコーダ構造を導入する。
Atari 2600ゲームにおける注意の可視化は,様々なゲームタスクにおけるエージェントの意思決定の詳細な分析を可能にする。
- 参考スコア(独自算出の注目度): 7.290230029542328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The excellent performance of Transformer in supervised learning has led to
growing interest in its potential application to deep reinforcement learning
(DRL) to achieve high performance on a wide variety of problems. However, the
decision making of a DRL agent is a black box, which greatly hinders the
application of the agent to real-world problems. To address this problem, we
propose the Action Q-Transformer (AQT), which introduces a transformer
encoder-decoder structure to Q-learning based DRL methods. In AQT, the encoder
calculates the state value function and the decoder calculates the advantage
function to promote the acquisition of different attentions indicating the
agent's decision-making. The decoder in AQT utilizes action queries, which
represent the information of each action, as queries. This enables us to obtain
the attentions for the state value and for each action. By acquiring and
visualizing these attentions that detail the agent's decision-making, we
achieve a DRL model with high interpretability. In this paper, we show that
visualization of attention in Atari 2600 games enables detailed analysis of
agents' decision-making in various game tasks. Further, experimental results
demonstrate that our method can achieve higher performance than the baseline in
some games.
- Abstract(参考訳): 教師付き学習におけるトランスフォーマーの優れた性能は、多種多様な問題において高い性能を達成するための深層強化学習(DRL)への潜在的な応用への関心を高めている。
しかし、DRLエージェントの決定はブラックボックスであり、現実世界の問題へのエージェントの適用を著しく妨げている。
そこで本研究では,Qラーニングに基づくDRL法に変換器エンコーダ・デコーダ構造を導入したAQT(Action Q-Transformer)を提案する。
aqtでは、エンコーダは状態値関数を計算し、デコーダはアドバンテージ関数を計算してエージェントの意思決定を示す異なる注意の獲得を促進する。
AQTのデコーダは、各アクションの情報を表すアクションクエリをクエリとして利用する。
これにより、状態値と各アクションに対する注意を得ることができます。
エージェントの意思決定を詳述したこれらの注意点を取得し,視覚化することにより,高い解釈性を有するDRLモデルを実現する。
本稿では,Atari 2600ゲームにおける注意の可視化により,各種ゲームタスクにおけるエージェントの意思決定を詳細に分析できることを示す。
さらに,実験結果から,いくつかのゲームにおいて,ベースラインよりも高い性能が得られることが示された。
関連論文リスト
- An Examination of Offline-Trained Encoders in Vision-Based Deep Reinforcement Learning for Autonomous Driving [0.0]
部分観測可能なマルコフ決定過程(POMDP)における深層強化学習(DRL)の課題に関する研究
我々の研究は、オフラインで訓練されたエンコーダを用いて、自己教師付き学習を通じて大規模なビデオデータセットを活用し、一般化可能な表現を学習する。
CARLAシミュレータにおいて,BDD100Kの運転映像から得られた特徴を直接転送することで,車線追従や衝突回避を実現することができることを示す。
論文 参考訳(メタデータ) (2024-09-02T14:16:23Z) - Q-Transformer: Scalable Offline Reinforcement Learning via
Autoregressive Q-Functions [143.89572689302497]
大規模なオフラインデータセットからマルチタスクポリシーをトレーニングするためのスケーラブルな強化学習手法を提案する。
本手法は,オフライン時間差分バックアップによりトレーニングしたQ関数のスケーラブルな表現を実現するためにTransformerを用いている。
そこで本研究では,Q-Transformerが,多種多様な実世界のロボット操作タスクスイート上で,事前のオフラインRLアルゴリズムと模倣学習技術より優れていることを示す。
論文 参考訳(メタデータ) (2023-09-18T21:00:38Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Explaining Deep Reinforcement Learning Agents In The Atari Domain
through a Surrogate Model [78.69367679848632]
深部RLエージェントの説明を導出するための軽量で効果的な手法について述べる。
提案手法は,RLエージェントの画素ベース入力から解釈可能な知覚的入力表現への変換に依存する。
次に、ターゲットの深いRLエージェントの挙動を再現するために、それ自身解釈可能な代理モデルを訓練する。
論文 参考訳(メタデータ) (2021-10-07T05:01:44Z) - Visual Explanation using Attention Mechanism in Actor-Critic-based Deep
Reinforcement Learning [9.49864824780503]
A3C (Asynchronous Advantage Actor-Critic) に注意機構を導入するMask-Attention A3C (Mask A3C) を提案する。
A3Cは、画像から特徴を抽出する特徴抽出器と、ポリシーを出力するポリシーブランチと、状態値を出力する値ブランチとから構成される。
Atari 2600のゲーム用のマスクアテンションマップを視覚化し、エージェントの意思決定の背後にある理由を簡単に分析できることを発見しました。
論文 参考訳(メタデータ) (2021-03-06T08:38:12Z) - Hierarchical Variational Autoencoder for Visual Counterfactuals [79.86967775454316]
条件変量オート(VAE)は、説明可能な人工知能(XAI)ツールとして注目されている。
本稿では, 後部の効果がいかに緩和され, 対物的効果が成功するかを示す。
本稿では,アプリケーション内の分類器を視覚的に監査できる階層型VAEについて紹介する。
論文 参考訳(メタデータ) (2021-02-01T14:07:11Z) - Deep Surrogate Q-Learning for Autonomous Driving [17.30342128504405]
本稿では,自律運転における車線変更行動学習のためのSurrogate Q-learningを提案する。
このアーキテクチャは、Scene-centric Experience Replayと呼ばれる新しいリプレイサンプリング技術に繋がることを示す。
また,本手法は実高Dデータセット上のポリシーを学習することで,実世界のRLシステムの適用性を向上させる。
論文 参考訳(メタデータ) (2020-10-21T19:49:06Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Self-Supervised Discovering of Interpretable Features for Reinforcement
Learning [40.52278913726904]
深層強化学習のための自己教師付き解釈可能なフレームワークを提案する。
タスク関連情報を強調するための細かな注意マスクを作成するために、自己教師型解釈ネットワーク(SSINet)が使用される。
Atari 2600とDuckietownは、自動運転車のシミュレータ環境として難易度の高い環境である。
論文 参考訳(メタデータ) (2020-03-16T08:26:17Z) - Learn to Interpret Atari Agents [106.21468537372995]
リージョン・センシティブ・レインボー(Rerea-sensitive Rainbow、RS-Rainbow)は、Qネットワークの強力なエージェントであるレインボーをベースとした、エンドツーエンドのトレーニング可能なネットワークである。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンド・ツー・エンドのトレーニング可能なネットワークである。
論文 参考訳(メタデータ) (2018-12-29T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。