論文の概要: Advantage Actor-Critic with Reasoner: Explaining the Agent's Behavior
from an Exploratory Perspective
- arxiv url: http://arxiv.org/abs/2309.04707v1
- Date: Sat, 9 Sep 2023 07:19:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 16:57:43.531163
- Title: Advantage Actor-Critic with Reasoner: Explaining the Agent's Behavior
from an Exploratory Perspective
- Title(参考訳): Reasoner を用いたアドバンテージアクター批判:探索的視点からエージェントの行動を説明する
- Authors: Muzhe Guo, Feixu Yu, Tian Lan, Fang Jin
- Abstract要約: 我々は、Reasoner (A2CR) を用いたアドバンテージ・アクター・クライシスト(アドバンテージ・アクター・クライト)を提案する。
A2CRはエージェントの意思決定プロセスを理解するために、より包括的で解釈可能なパラダイムを自動生成する。
目的に基づく正当性、早期障害検出、モデル監視など、さまざまな機能を提供します。
- 参考スコア(独自算出の注目度): 19.744322603358402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is a powerful tool for solving complex
decision-making problems, but its lack of transparency and interpretability has
been a major challenge in domains where decisions have significant real-world
consequences. In this paper, we propose a novel Advantage Actor-Critic with
Reasoner (A2CR), which can be easily applied to Actor-Critic-based RL models
and make them interpretable. A2CR consists of three interconnected networks:
the Policy Network, the Value Network, and the Reasoner Network. By predefining
and classifying the underlying purpose of the actor's actions, A2CR
automatically generates a more comprehensive and interpretable paradigm for
understanding the agent's decision-making process. It offers a range of
functionalities such as purpose-based saliency, early failure detection, and
model supervision, thereby promoting responsible and trustworthy RL.
Evaluations conducted in action-rich Super Mario Bros environments yield
intriguing findings: Reasoner-predicted label proportions decrease for
``Breakout" and increase for ``Hovering" as the exploration level of the RL
algorithm intensifies. Additionally, purpose-based saliencies are more focused
and comprehensible.
- Abstract(参考訳): 強化学習(rl)は複雑な意思決定問題を解決するための強力なツールであるが、その透明性と解釈性の欠如は、決定が現実世界に大きな影響を与える領域において大きな課題となっている。
本稿では,アクター・クリティックベースのrlモデルに容易に適用でき,それらを解釈可能にする,a2cr(actor-critic with reasoner)という新しいアドバンテージを提案する。
A2CRは、ポリシネットワーク、バリューネットワーク、Reasonerネットワークの3つの相互接続ネットワークで構成されている。
アクターの行動の基本的な目的を事前に定義し分類することにより、A2CRはエージェントの意思決定プロセスを理解するためのより包括的で解釈可能なパラダイムを自動生成する。
目的に基づく敬礼、早期障害検出、モデル監視など、さまざまな機能を提供し、責任と信頼に値するrlを促進する。
アクションに富んだスーパーマリオブラザーズ環境で実施した評価は、"`breakout" に対する推論ラベルの割合が減少し、rlアルゴリズムの探索レベルが増大するにつれて ``hovering" が増加するという興味深い結果をもたらす。
さらに、目的に基づく給与はより集中的で理解しやすい。
関連論文リスト
- Semifactual Explanations for Reinforcement Learning [1.5320737596132754]
強化学習(Reinforcement Learning、RL)は、エージェントが試行錯誤を通じて環境から学習する学習パラダイムである。
ディープ強化学習(DRL)アルゴリズムは、ニューラルネットワークを使用してエージェントのポリシーを表現し、その決定を解釈しにくくする。
DRLエージェントの動作を説明するには,ユーザの信頼を向上し,エンゲージメントを高め,実際のタスクとの統合を容易にする必要がある。
論文 参考訳(メタデータ) (2024-09-09T08:37:47Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Global and Local Analysis of Interestingness for Competency-Aware Deep
Reinforcement Learning [0.0]
我々は「興味」の分析に基づく説明可能な強化学習(RL)のための最近提案されたフレームワークを拡張した。
当社のツールは,RLエージェントの能力,能力と限界に関する洞察を提供し,ユーザがより情報的な意思決定を行えるようにします。
論文 参考訳(メタデータ) (2022-11-11T17:48:42Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Explainable Reinforcement Learning for Broad-XAI: A Conceptual Framework
and Survey [0.7366405857677226]
強化学習(Reinforcement Learning, RL)法は、ブロードXAIの開発に必要な認知モデルのための潜在的なバックボーンを提供する。
RLは、さまざまなシーケンシャルな意思決定問題の解決に成功している一連のアプローチである。
本稿では,現在のXRL研究を統一し,Broad-XAI開発のバックボーンとしてRLを用いるCausal XRL Framework (CXF) という概念的フレームワークを導入することを目的とする。
論文 参考訳(メタデータ) (2021-08-20T05:18:50Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Agent-Centric Representations for Multi-Agent Reinforcement Learning [12.577354830985012]
完全協調型マルチエージェント強化学習において,対象中心表現が有用であるかどうかを検討する。
具体的には、RLアルゴリズムにエージェント中心の誘導バイアスを組み込む2つの方法を検討する。
これらのアプローチをGoogle Research Football環境およびDeepMind Lab 2D上で評価します。
論文 参考訳(メタデータ) (2021-04-19T15:43:40Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Self-Supervised Discovering of Interpretable Features for Reinforcement
Learning [40.52278913726904]
深層強化学習のための自己教師付き解釈可能なフレームワークを提案する。
タスク関連情報を強調するための細かな注意マスクを作成するために、自己教師型解釈ネットワーク(SSINet)が使用される。
Atari 2600とDuckietownは、自動運転車のシミュレータ環境として難易度の高い環境である。
論文 参考訳(メタデータ) (2020-03-16T08:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。