論文の概要: Leveraging Counterfactual Paths for Contrastive Explanations of POMDP Policies
- arxiv url: http://arxiv.org/abs/2403.19760v1
- Date: Thu, 28 Mar 2024 18:19:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 17:33:35.708230
- Title: Leveraging Counterfactual Paths for Contrastive Explanations of POMDP Policies
- Title(参考訳): POMDP政策のコントラスト的説明のための反ファクトパスの活用
- Authors: Benjamin Kraske, Zakariya Laouar, Zachary Sunberg,
- Abstract要約: XAIは、エージェント行動の説明を提供することで、混乱を減らし、システムの信頼を高めることを目的としている。
POMDPは、遷移と状態の不確実性を推論できる柔軟なフレームワークを提供する。
本研究は,POMDPポリシーの対照的な説明を生成するために,ユーザが提供する反ファクトファクトの活用について検討する。
- 参考スコア(独自算出の注目度): 2.4332936182093197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As humans come to rely on autonomous systems more, ensuring the transparency of such systems is important to their continued adoption. Explainable Artificial Intelligence (XAI) aims to reduce confusion and foster trust in systems by providing explanations of agent behavior. Partially observable Markov decision processes (POMDPs) provide a flexible framework capable of reasoning over transition and state uncertainty, while also being amenable to explanation. This work investigates the use of user-provided counterfactuals to generate contrastive explanations of POMDP policies. Feature expectations are used as a means of contrasting the performance of these policies. We demonstrate our approach in a Search and Rescue (SAR) setting. We analyze and discuss the associated challenges through two case studies.
- Abstract(参考訳): 人間は自律システムにますます依存するようになり、そのようなシステムの透明性を確保することが、その採用の継続に重要である。
説明可能な人工知能(XAI)は、エージェントの振る舞いの説明を提供することで、混乱を減らし、システムの信頼を高めることを目的としている。
部分的に観測可能なマルコフ決定プロセス(POMDP)は、遷移と状態の不確実性を推論できるフレキシブルなフレームワークを提供すると同時に、説明も可能である。
本研究は,POMDPポリシーの対照的な説明を生成するために,ユーザが提供する反ファクトファクトの活用について検討する。
機能期待は、これらのポリシーのパフォーマンスを対比する手段として使用される。
我々は、SAR(Search and Rescue)設定で我々のアプローチを実証する。
2つのケーススタディを通じて、関連する課題を分析し、議論する。
関連論文リスト
- Demystifying Reinforcement Learning in Production Scheduling via Explainable AI [0.7515066610159392]
深層強化学習(Dep Reinforcement Learning, DRL)はスケジューリング問題の解法としてよく用いられる手法である。
DRLエージェントは、短い計算時間で実行可能な結果を提供するのが得意だが、その推論はいまだに不透明である。
フロー生産における特殊DRLエージェントのスケジューリング決定の背後にある理由を説明するために,2つの説明可能なAI(xAI)フレームワークを適用した。
論文 参考訳(メタデータ) (2024-08-19T09:39:01Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Fidelity-Induced Interpretable Policy Extraction for Reinforcement
Learning [6.622746736005175]
深層強化学習(DRL)は、逐次意思決定問題において顕著な成功を収めた。
既存のDRLエージェントは不透明な方法で決定を下し、ユーザはエージェントの信頼性を確立し、弱点を精査するのを妨げる。
フィデリティ誘導政策抽出(FIPE)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T10:03:32Z) - Explainability in AI Policies: A Critical Review of Communications,
Reports, Regulations, and Standards in the EU, US, and UK [1.5039745292757671]
我々は、EU、米国、英国における説明可能性に関する政策と標準に関する最初のテーマとギャップの分析を行う。
政策は、しばしば説明のための粗い概念と要求によって知らされる。
本稿では,AIシステムの規則における説明可能性への対処法を提案する。
論文 参考訳(メタデータ) (2023-04-20T07:53:07Z) - Explainable Reinforcement Learning via Model Transforms [18.385505289067023]
基礎となるマルコフ決定プロセスが完全には分かっていないとしても、それにもかかわらず、自動的に説明を生成するために利用することができる、と我々は主張する。
本稿では,従来の文献で最適ポリシー探索の高速化に用いられていた形式的MDP抽象化と変換を用いて,説明を自動的に生成することを提案する。
論文 参考訳(メタデータ) (2022-09-24T13:18:06Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Uncertainty as a Form of Transparency: Measuring, Communicating, and
Using Uncertainty [66.17147341354577]
我々は,モデル予測に関連する不確実性を推定し,伝達することにより,相補的な透明性の形式を考えることについて議論する。
モデルの不公平性を緩和し、意思決定を強化し、信頼できるシステムを構築するために不確実性がどのように使われるかを説明する。
この研究は、機械学習、可視化/HCI、デザイン、意思決定、公平性にまたがる文学から引き出された学際的レビューを構成する。
論文 参考訳(メタデータ) (2020-11-15T17:26:14Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。