論文の概要: BET: Explaining Deep Reinforcement Learning through The Error-Prone
Decisions
- arxiv url: http://arxiv.org/abs/2401.07263v1
- Date: Sun, 14 Jan 2024 11:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:09:31.945935
- Title: BET: Explaining Deep Reinforcement Learning through The Error-Prone
Decisions
- Title(参考訳): BET: エラー確率決定による深層強化学習の解説
- Authors: Xiao Liu, Jie Zhao, Wubing Chen, Mao Tan, Yongxing Su
- Abstract要約: エージェントの振る舞いをよりよく説明するために,バックボーン抽出木(Backbone Extract Tree, BET)と呼ばれる新しい自己解釈構造を提案する。
高いレベルでは、BETはエージェントが一貫して一様決定を行う状態はエラーの妥当性を低下させるという仮説を立てている。
説明忠実度の観点から,既存の自己解釈モデルよりもBETの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 7.139669387895207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive capabilities of Deep Reinforcement Learning (DRL)
agents in many challenging scenarios, their black-box decision-making process
significantly limits their deployment in safety-sensitive domains. Several
previous self-interpretable works focus on revealing the critical states of the
agent's decision. However, they cannot pinpoint the error-prone states. To
address this issue, we propose a novel self-interpretable structure, named
Backbone Extract Tree (BET), to better explain the agent's behavior by identify
the error-prone states. At a high level, BET hypothesizes that states in which
the agent consistently executes uniform decisions exhibit a reduced propensity
for errors. To effectively model this phenomenon, BET expresses these states
within neighborhoods, each defined by a curated set of representative states.
Therefore, states positioned at a greater distance from these representative
benchmarks are more prone to error. We evaluate BET in various popular RL
environments and show its superiority over existing self-interpretable models
in terms of explanation fidelity. Furthermore, we demonstrate a use case for
providing explanations for the agents in StarCraft II, a sophisticated
multi-agent cooperative game. To the best of our knowledge, we are the first to
explain such a complex scenarios using a fully transparent structure.
- Abstract(参考訳): 多くの困難なシナリオにおいて、Deep Reinforcement Learning (DRL)エージェントの印象的な機能にもかかわらず、彼らのブラックボックス決定プロセスは、安全に敏感なドメインへのデプロイメントを著しく制限している。
以前のいくつかの自己解釈可能な研究は、エージェントの決定の重大な状態を明らかにすることに焦点を当てている。
しかし、エラーを起こしやすい状態は特定できない。
この問題に対処するために,backbone extract tree (bet) と呼ばれる新しい自己解釈可能な構造を提案する。
高いレベルでは、BETはエージェントが一貫して一様決定を行う状態はエラーの確率を減少させるという仮説を立てている。
この現象を効果的にモデル化するために、ベットはこれらの状態を近隣で表現し、それぞれが代表的状態のキュレーションによって定義される。
したがって、これらの代表的なベンチマークからより離れた位置にある状態はエラーを起こしやすい。
我々は,様々なRL環境におけるBETの評価を行い,既存の自己解釈モデルよりも説明の忠実度が優れていることを示す。
さらに,高度なマルチエージェント協調ゲームであるStarCraft IIにおいて,エージェントの説明を行うためのユースケースを示す。
私たちの知る限りでは,このような複雑なシナリオを,完全に透過的な構造を使って最初に説明します。
関連論文リスト
- CRAT: A Multi-Agent Framework for Causality-Enhanced Reflective and Retrieval-Augmented Translation with Large Language Models [59.8529196670565]
CRATは、RAGと因果強化自己回帰を利用して翻訳課題に対処する、新しいマルチエージェント翻訳フレームワークである。
以上の結果からCRATは翻訳精度を著しく向上させ,特に文脈に敏感な単語や語彙の出現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-28T14:29:11Z) - Demystifying Reinforcement Learning in Production Scheduling via Explainable AI [0.7515066610159392]
深層強化学習(Dep Reinforcement Learning, DRL)はスケジューリング問題の解法としてよく用いられる手法である。
DRLエージェントは、短い計算時間で実行可能な結果を提供するのが得意だが、その推論はいまだに不透明である。
フロー生産における特殊DRLエージェントのスケジューリング決定の背後にある理由を説明するために,2つの説明可能なAI(xAI)フレームワークを適用した。
論文 参考訳(メタデータ) (2024-08-19T09:39:01Z) - Causal State Distillation for Explainable Reinforcement Learning [16.998047658978482]
強化学習(Reinforcement Learning, RL)は、知的エージェントを訓練するための強力なテクニックであるが、これらのエージェントが特定の決定を下す理由を理解することは困難である。
この問題に対処するために様々なアプローチが検討され、ある有望な道は報酬分解(RD)である。
RDは、エージェントの振る舞いをポストホックな方法で合理化しようとする他の方法に関連する懸念のいくつかを傍受するので、魅力的である。
我々は、より情報的な説明を提供するために、サブリワードを超えてRDの拡張を示す。
論文 参考訳(メタデータ) (2023-12-30T00:01:22Z) - GANterfactual-RL: Understanding Reinforcement Learning Agents'
Strategies through Visual Counterfactual Explanations [0.7874708385247353]
本稿では,RLエージェントの反実的説明を生成する手法を提案する。
本手法は完全にモデルに依存しないので,いくつかの計算量において,従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:29:43Z) - Causal Explanations for Sequential Decision-Making in Multi-Agent
Systems [31.674391914683888]
CEMAは、シーケンシャルなマルチエージェントシステムにおけるエージェントの決定を因果自然言語で説明するためのフレームワークである。
CEMAは,他のエージェントが多数存在する場合でも,エージェントの決定の背後にある原因を正しく識別する。
我々は,CEMAの説明が参加者の自動運転車への信頼に肯定的な影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2023-02-21T16:34:07Z) - Differentially Private Counterfactuals via Functional Mechanism [47.606474009932825]
本稿では,デプロイされたモデルや説明セットに触れることなく,差分的プライベート・カウンティファクト(DPC)を生成する新しいフレームワークを提案する。
特に、ノイズの多いクラスプロトタイプを構築するための機能機構を備えたオートエンコーダを訓練し、次に潜伏プロトタイプからDPCを導出する。
論文 参考訳(メタデータ) (2022-08-04T20:31:22Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - ReCCoVER: Detecting Causal Confusion for Explainable Reinforcement
Learning [2.984934409689467]
因果的混乱(英: Causal confusion)とは、エージェントが状態空間全体にわたって保持されない可能性のある特徴間の急激な相関を学習する現象である。
本稿では,エージェントの推論における因果的混乱を検出するアルゴリズムであるReCCoVERを提案する。
論文 参考訳(メタデータ) (2022-03-21T13:17:30Z) - On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。
多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。
本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:45:08Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z) - Empirically Verifying Hypotheses Using Reinforcement Learning [58.09414653169534]
本稿では,仮説検証をRL問題として定式化する。
我々は、世界の力学に関する仮説を前提として、仮説が真か偽かを予測するのに役立つ観測結果を生成することができるエージェントを構築することを目指している。
論文 参考訳(メタデータ) (2020-06-29T01:01:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。