論文の概要: Why the Agent Made that Decision: Explaining Deep Reinforcement Learning with Vision Masks
- arxiv url: http://arxiv.org/abs/2411.16120v1
- Date: Mon, 25 Nov 2024 06:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:50.701951
- Title: Why the Agent Made that Decision: Explaining Deep Reinforcement Learning with Vision Masks
- Title(参考訳): なぜエージェントがその決定を下したのか:視覚マスクによる深層強化学習の解説
- Authors: Rui Zuo, Zifan Wang, Simon Khan, Garrett Ethan Katz, Qinru Qiu,
- Abstract要約: VisionMaskは、エージェントの視覚入力における最も重要な領域を特定するために、エンドツーエンドで訓練されたスタンドアロンの説明モデルである。
挿入精度は14.9%、F1スコアは30.08%向上し、選択された視覚的説明から元のアクションを再現する。
- 参考スコア(独自算出の注目度): 11.068220265247385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the inherent lack of transparency in deep neural networks, it is challenging for deep reinforcement learning (DRL) agents to gain trust and acceptance from users, especially in safety-critical applications such as medical diagnosis and military operations. Existing methods for explaining an agent's decision either require to retrain the agent using models that support explanation generation or rely on perturbation-based techniques to reveal the significance of different input features in the decision making process. However, retraining the agent may compromise its integrity and performance, while perturbation-based methods have limited performance and lack knowledge accumulation or learning capabilities. Moreover, since each perturbation is performed independently, the joint state of the perturbed inputs may not be physically meaningful. To address these challenges, we introduce $\textbf{VisionMask}$, a standalone explanation model trained end-to-end to identify the most critical regions in the agent's visual input that can explain its actions. VisionMask is trained in a self-supervised manner without relying on human-generated labels. Importantly, its training does not alter the agent model, hence preserving the agent's performance and integrity. We evaluate VisionMask on Super Mario Bros (SMB) and three Atari games. Compared to existing methods, VisionMask achieves a 14.9% higher insertion accuracy and a 30.08% higher F1-Score in reproducing original actions from the selected visual explanations. We also present examples illustrating how VisionMask can be used for counterfactual analysis.
- Abstract(参考訳): ディープニューラルネットワークに固有の透明性の欠如のため、特に医療診断や軍事操作などの安全クリティカルな応用において、深層強化学習(DRL)エージェントがユーザからの信頼と受け入れを得ることは困難である。
エージェントの決定を説明する既存の方法は、説明生成をサポートするモデルを使用してエージェントを再訓練するか、あるいは意思決定プロセスにおける異なる入力特徴の重要性を明らかにするために摂動に基づく技術に依存する必要がある。
しかし、エージェントの再訓練は、その完全性と性能を損なう可能性があるが、摂動に基づく手法は性能が制限され、知識の蓄積や学習能力が欠如している。
さらに、各摂動は独立して行われるので、摂動入力の結合状態は物理的に意味を持たない。
これらの課題に対処するために、$\textbf{VisionMask}$というスタンドアロンの説明モデルを導入し、エージェントの視覚入力において最も重要な領域を特定し、その動作を説明する。
VisionMaskは、人間が生成したラベルに頼ることなく、自己管理的な方法で訓練される。
重要なのは、そのトレーニングはエージェントモデルを変更しないため、エージェントのパフォーマンスと整合性を維持することである。
スーパーマリオブラザーズ(SMB)のビジョンマスクと3つのアタリゲームを評価した。
既存の方法と比較して、VisionMaskは挿入精度が14.9%高く、選択された視覚的説明から元のアクションを再現する際のF1スコアが30.08%高い。
また,VisionMaskの反ファクト解析への応用例を示す。
関連論文リスト
- Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - ID-Guard: A Universal Framework for Combating Facial Manipulation via Breaking Identification [60.73617868629575]
深層学習に基づく顔操作の誤用は、公民権に重大な脅威をもたらす。
この不正行為を防止するため、操作過程を妨害する積極的な防御法が提案されている。
本稿では,IDガード(ID-Guard)と呼ばれる顔の操作に対処するための普遍的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-20T09:30:08Z) - Causal State Distillation for Explainable Reinforcement Learning [16.998047658978482]
強化学習(Reinforcement Learning, RL)は、知的エージェントを訓練するための強力なテクニックであるが、これらのエージェントが特定の決定を下す理由を理解することは困難である。
この問題に対処するために様々なアプローチが検討され、ある有望な道は報酬分解(RD)である。
RDは、エージェントの振る舞いをポストホックな方法で合理化しようとする他の方法に関連する懸念のいくつかを傍受するので、魅力的である。
我々は、より情報的な説明を提供するために、サブリワードを超えてRDの拡張を示す。
論文 参考訳(メタデータ) (2023-12-30T00:01:22Z) - MaDi: Learning to Mask Distractions for Generalization in Visual Deep
Reinforcement Learning [40.7452827298478]
本稿では,報酬信号のみによる注意を隠蔽する新しいアルゴリズムであるMaDiを紹介する。
MaDiでは、強化学習剤の従来のアクター・クリティカルな構造は、3番目の兄弟であるMaskerによって補完される。
提案アルゴリズムは有用なマスクを用いてエージェントの焦点を改良し,その効率の良いMaskerネットワークは元の構造に0.2%以上のパラメータしか加えない。
論文 参考訳(メタデータ) (2023-12-23T20:11:05Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Hard Patches Mining for Masked Image Modeling [52.46714618641274]
マスク付き画像モデリング(MIM)は、スケーラブルな視覚表現を学習する有望な可能性から、多くの研究の注目を集めている。
我々はMIM事前学習のための新しいフレームワークであるHPM(Hard Patches Mining)を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:38:23Z) - GANterfactual-RL: Understanding Reinforcement Learning Agents'
Strategies through Visual Counterfactual Explanations [0.7874708385247353]
本稿では,RLエージェントの反実的説明を生成する手法を提案する。
本手法は完全にモデルに依存しないので,いくつかの計算量において,従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:29:43Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Redefining Counterfactual Explanations for Reinforcement Learning:
Overview, Challenges and Opportunities [2.0341936392563063]
AIのほとんどの説明方法は、開発者とエキスパートユーザーに焦点を当てている。
ブラックボックスモデルの出力が変更されるための入力で何が変更されるのかについて、カウンターファクトな説明がユーザにアドバイスします。
カウンターファクトはユーザフレンドリで、AIシステムから望ましいアウトプットを達成するための実行可能なアドバイスを提供する。
論文 参考訳(メタデータ) (2022-10-21T09:50:53Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - Mask or Non-Mask? Robust Face Mask Detector via Triplet-Consistency
Representation Learning [23.062034116854875]
新型コロナウイルスの感染拡大を遅らせる効果的な方法の1つは、ワクチンや薬品がない場合、マスクを着用することである。
公共の場でのマスクや覆いの使用を義務付けるには、面倒で注意が集中的な人的資源の追加が必要である。
本稿では,フィードフォワード畳み込みニューラルネットワークの効果的な注目を実現するために,コンテキストアテンションモジュールを用いたフェイスマスク検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-01T16:44:06Z) - Visual Explanation using Attention Mechanism in Actor-Critic-based Deep
Reinforcement Learning [9.49864824780503]
A3C (Asynchronous Advantage Actor-Critic) に注意機構を導入するMask-Attention A3C (Mask A3C) を提案する。
A3Cは、画像から特徴を抽出する特徴抽出器と、ポリシーを出力するポリシーブランチと、状態値を出力する値ブランチとから構成される。
Atari 2600のゲーム用のマスクアテンションマップを視覚化し、エージェントの意思決定の背後にある理由を簡単に分析できることを発見しました。
論文 参考訳(メタデータ) (2021-03-06T08:38:12Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z) - Explainable Reinforcement Learning: A Survey [0.0]
説明可能な人工知能(XAI)はここ数年で勢いを増している。
XAIモデルには1つの有害な特徴がある。
本調査は、説明可能な強化学習(XRL)手法の概要を提供することで、このギャップに対処しようとするものである。
論文 参考訳(メタデータ) (2020-05-13T10:52:49Z) - Self-Supervised Discovering of Interpretable Features for Reinforcement
Learning [40.52278913726904]
深層強化学習のための自己教師付き解釈可能なフレームワークを提案する。
タスク関連情報を強調するための細かな注意マスクを作成するために、自己教師型解釈ネットワーク(SSINet)が使用される。
Atari 2600とDuckietownは、自動運転車のシミュレータ環境として難易度の高い環境である。
論文 参考訳(メタデータ) (2020-03-16T08:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。