論文の概要: Why the Agent Made that Decision: Explaining Deep Reinforcement Learning with Vision Masks
- arxiv url: http://arxiv.org/abs/2411.16120v1
- Date: Mon, 25 Nov 2024 06:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:12.415826
- Title: Why the Agent Made that Decision: Explaining Deep Reinforcement Learning with Vision Masks
- Title(参考訳): なぜエージェントがその決定を下したのか:視覚マスクによる深層強化学習の解説
- Authors: Rui Zuo, Zifan Wang, Simon Khan, Garrett Ethan Katz, Qinru Qiu,
- Abstract要約: VisionMaskは、エージェントの視覚入力における最も重要な領域を特定するために、エンドツーエンドで訓練されたスタンドアロンの説明モデルである。
挿入精度は14.9%、F1スコアは30.08%向上し、選択された視覚的説明から元のアクションを再現する。
- 参考スコア(独自算出の注目度): 11.068220265247385
- License:
- Abstract: Due to the inherent lack of transparency in deep neural networks, it is challenging for deep reinforcement learning (DRL) agents to gain trust and acceptance from users, especially in safety-critical applications such as medical diagnosis and military operations. Existing methods for explaining an agent's decision either require to retrain the agent using models that support explanation generation or rely on perturbation-based techniques to reveal the significance of different input features in the decision making process. However, retraining the agent may compromise its integrity and performance, while perturbation-based methods have limited performance and lack knowledge accumulation or learning capabilities. Moreover, since each perturbation is performed independently, the joint state of the perturbed inputs may not be physically meaningful. To address these challenges, we introduce $\textbf{VisionMask}$, a standalone explanation model trained end-to-end to identify the most critical regions in the agent's visual input that can explain its actions. VisionMask is trained in a self-supervised manner without relying on human-generated labels. Importantly, its training does not alter the agent model, hence preserving the agent's performance and integrity. We evaluate VisionMask on Super Mario Bros (SMB) and three Atari games. Compared to existing methods, VisionMask achieves a 14.9% higher insertion accuracy and a 30.08% higher F1-Score in reproducing original actions from the selected visual explanations. We also present examples illustrating how VisionMask can be used for counterfactual analysis.
- Abstract(参考訳): ディープニューラルネットワークに固有の透明性の欠如のため、特に医療診断や軍事操作などの安全クリティカルな応用において、深層強化学習(DRL)エージェントがユーザからの信頼と受け入れを得ることは困難である。
エージェントの決定を説明する既存の方法は、説明生成をサポートするモデルを使用してエージェントを再訓練するか、あるいは意思決定プロセスにおける異なる入力特徴の重要性を明らかにするために摂動に基づく技術に依存する必要がある。
しかし、エージェントの再訓練は、その完全性と性能を損なう可能性があるが、摂動に基づく手法は性能が制限され、知識の蓄積や学習能力が欠如している。
さらに、各摂動は独立して行われるので、摂動入力の結合状態は物理的に意味を持たない。
これらの課題に対処するために、$\textbf{VisionMask}$というスタンドアロンの説明モデルを導入し、エージェントの視覚入力において最も重要な領域を特定し、その動作を説明する。
VisionMaskは、人間が生成したラベルに頼ることなく、自己管理的な方法で訓練される。
重要なのは、そのトレーニングはエージェントモデルを変更しないため、エージェントのパフォーマンスと整合性を維持することである。
スーパーマリオブラザーズ(SMB)のビジョンマスクと3つのアタリゲームを評価した。
既存の方法と比較して、VisionMaskは挿入精度が14.9%高く、選択された視覚的説明から元のアクションを再現する際のF1スコアが30.08%高い。
また,VisionMaskの反ファクト解析への応用例を示す。
関連論文リスト
- MaDi: Learning to Mask Distractions for Generalization in Visual Deep
Reinforcement Learning [40.7452827298478]
本稿では,報酬信号のみによる注意を隠蔽する新しいアルゴリズムであるMaDiを紹介する。
MaDiでは、強化学習剤の従来のアクター・クリティカルな構造は、3番目の兄弟であるMaskerによって補完される。
提案アルゴリズムは有用なマスクを用いてエージェントの焦点を改良し,その効率の良いMaskerネットワークは元の構造に0.2%以上のパラメータしか加えない。
論文 参考訳(メタデータ) (2023-12-23T20:11:05Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Hard Patches Mining for Masked Image Modeling [52.46714618641274]
マスク付き画像モデリング(MIM)は、スケーラブルな視覚表現を学習する有望な可能性から、多くの研究の注目を集めている。
我々はMIM事前学習のための新しいフレームワークであるHPM(Hard Patches Mining)を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:38:23Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - Mask or Non-Mask? Robust Face Mask Detector via Triplet-Consistency
Representation Learning [23.062034116854875]
新型コロナウイルスの感染拡大を遅らせる効果的な方法の1つは、ワクチンや薬品がない場合、マスクを着用することである。
公共の場でのマスクや覆いの使用を義務付けるには、面倒で注意が集中的な人的資源の追加が必要である。
本稿では,フィードフォワード畳み込みニューラルネットワークの効果的な注目を実現するために,コンテキストアテンションモジュールを用いたフェイスマスク検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-01T16:44:06Z) - Visual Explanation using Attention Mechanism in Actor-Critic-based Deep
Reinforcement Learning [9.49864824780503]
A3C (Asynchronous Advantage Actor-Critic) に注意機構を導入するMask-Attention A3C (Mask A3C) を提案する。
A3Cは、画像から特徴を抽出する特徴抽出器と、ポリシーを出力するポリシーブランチと、状態値を出力する値ブランチとから構成される。
Atari 2600のゲーム用のマスクアテンションマップを視覚化し、エージェントの意思決定の背後にある理由を簡単に分析できることを発見しました。
論文 参考訳(メタデータ) (2021-03-06T08:38:12Z) - Self-Supervised Discovering of Interpretable Features for Reinforcement
Learning [40.52278913726904]
深層強化学習のための自己教師付き解釈可能なフレームワークを提案する。
タスク関連情報を強調するための細かな注意マスクを作成するために、自己教師型解釈ネットワーク(SSINet)が使用される。
Atari 2600とDuckietownは、自動運転車のシミュレータ環境として難易度の高い環境である。
論文 参考訳(メタデータ) (2020-03-16T08:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。