Fugu-MT 論文翻訳(概要): Leveraging Counterfactual Paths for Contrastive Explanations of POMDP Policies

論文の概要: Leveraging Counterfactual Paths for Contrastive Explanations of POMDP Policies

arxiv url: http://arxiv.org/abs/2403.19760v1
Date: Thu, 28 Mar 2024 18:19:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 17:33:35.708230
Title: Leveraging Counterfactual Paths for Contrastive Explanations of POMDP Policies
Title（参考訳）: POMDP政策のコントラスト的説明のための反ファクトパスの活用
Authors: Benjamin Kraske, Zakariya Laouar, Zachary Sunberg,
Abstract要約: XAIは、エージェント行動の説明を提供することで、混乱を減らし、システムの信頼を高めることを目的としている。 POMDPは、遷移と状態の不確実性を推論できる柔軟なフレームワークを提供する。本研究は,POMDPポリシーの対照的な説明を生成するために,ユーザが提供する反ファクトファクトの活用について検討する。
参考スコア（独自算出の注目度）: 2.4332936182093197
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As humans come to rely on autonomous systems more, ensuring the transparency of such systems is important to their continued adoption. Explainable Artificial Intelligence (XAI) aims to reduce confusion and foster trust in systems by providing explanations of agent behavior. Partially observable Markov decision processes (POMDPs) provide a flexible framework capable of reasoning over transition and state uncertainty, while also being amenable to explanation. This work investigates the use of user-provided counterfactuals to generate contrastive explanations of POMDP policies. Feature expectations are used as a means of contrasting the performance of these policies. We demonstrate our approach in a Search and Rescue (SAR) setting. We analyze and discuss the associated challenges through two case studies.
Abstract（参考訳）: 人間は自律システムにますます依存するようになり、そのようなシステムの透明性を確保することが、その採用の継続に重要である。説明可能な人工知能(XAI)は、エージェントの振る舞いの説明を提供することで、混乱を減らし、システムの信頼を高めることを目的としている。部分的に観測可能なマルコフ決定プロセス(POMDP)は、遷移と状態の不確実性を推論できるフレキシブルなフレームワークを提供すると同時に、説明も可能である。本研究は,POMDPポリシーの対照的な説明を生成するために,ユーザが提供する反ファクトファクトの活用について検討する。機能期待は、これらのポリシーのパフォーマンスを対比する手段として使用される。我々は、SAR(Search and Rescue)設定で我々のアプローチを実証する。 2つのケーススタディを通じて、関連する課題を分析し、議論する。

関連論文リスト

CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文参考訳（メタデータ） (2025-07-10T21:32:18Z)
Explainable AI for UAV Mobility Management: A Deep Q-Network Approach for Handover Minimization [4.7430397428031785]
本稿では、さまざまな状態パラメータがハンドオーバ決定にどのように影響するかについて、より深い洞察を提供するための、説明可能なAI(XAI)フレームワークを紹介する。参照信号受信電力(RSRP)などの重要な特徴の影響を定量化することにより、RLベースのハンドオーバソリューションの解釈可能性と信頼性を向上させる。
論文参考訳（メタデータ） (2025-04-25T14:11:51Z)
Few-shot Policy (de)composition in Conversational Question Answering [54.259440408606515]
本稿では,大規模言語モデル(LLM)を用いて数ショット設定でポリシーコンプライアンスを検出するニューラルシンボリックフレームワークを提案する。提案手法は,回答すべきサブクエストを抽出し,文脈情報から真理値を割り当て,与えられたポリシーから論理文の集合を明示的に生成することで,政策コンプライアンスに関する会話に対して健全な理由を示す。本手法は,PCDおよび会話機械読解ベンチマークであるShARCに適用し,タスク固有の微調整を伴わずに競合性能を示す。
論文参考訳（メタデータ） (2025-01-20T08:40:15Z)
Demystifying Reinforcement Learning in Production Scheduling via Explainable AI [0.7515066610159392]
深層強化学習(Dep Reinforcement Learning, DRL)はスケジューリング問題の解法としてよく用いられる手法である。 DRLエージェントは、短い計算時間で実行可能な結果を提供するのが得意だが、その推論はいまだに不透明である。フロー生産における特殊DRLエージェントのスケジューリング決定の背後にある理由を説明するために,2つの説明可能なAI(xAI)フレームワークを適用した。
論文参考訳（メタデータ） (2024-08-19T09:39:01Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
Explaining by Imitating: Understanding Decisions by Interpretable Policy Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文参考訳（メタデータ） (2023-10-28T13:06:14Z)
From Heuristic to Analytic: Cognitively Motivated Strategies for Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文参考訳（メタデータ） (2023-10-24T19:46:04Z)
Fidelity-Induced Interpretable Policy Extraction for Reinforcement Learning [6.622746736005175]
深層強化学習(DRL)は、逐次意思決定問題において顕著な成功を収めた。既存のDRLエージェントは不透明な方法で決定を下し、ユーザはエージェントの信頼性を確立し、弱点を精査するのを妨げる。フィデリティ誘導政策抽出(FIPE)という新しい手法を提案する。
論文参考訳（メタデータ） (2023-09-12T10:03:32Z)
Explainability in AI Policies: A Critical Review of Communications, Reports, Regulations, and Standards in the EU, US, and UK [1.5039745292757671]
我々は、EU、米国、英国における説明可能性に関する政策と標準に関する最初のテーマとギャップの分析を行う。政策は、しばしば説明のための粗い概念と要求によって知らされる。本稿では,AIシステムの規則における説明可能性への対処法を提案する。
論文参考訳（メタデータ） (2023-04-20T07:53:07Z)
Explainable Reinforcement Learning via Model Transforms [18.385505289067023]
基礎となるマルコフ決定プロセスが完全には分かっていないとしても、それにもかかわらず、自動的に説明を生成するために利用することができる、と我々は主張する。本稿では,従来の文献で最適ポリシー探索の高速化に用いられていた形式的MDP抽象化と変換を用いて,説明を自動的に生成することを提案する。
論文参考訳（メタデータ） (2022-09-24T13:18:06Z)
Inverse Online Learning: Understanding Non-Stationary and Reactionary Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。 UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文参考訳（メタデータ） (2022-03-14T17:40:42Z)
Uncertainty as a Form of Transparency: Measuring, Communicating, and Using Uncertainty [66.17147341354577]
我々は,モデル予測に関連する不確実性を推定し,伝達することにより,相補的な透明性の形式を考えることについて議論する。モデルの不公平性を緩和し、意思決定を強化し、信頼できるシステムを構築するために不確実性がどのように使われるかを説明する。この研究は、機械学習、可視化/HCI、デザイン、意思決定、公平性にまたがる文学から引き出された学際的レビューを構成する。
論文参考訳（メタデータ） (2020-11-15T17:26:14Z)
Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は直立位置での力学系の教師なし安定化を可能にする本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文参考訳（メタデータ） (2020-07-14T21:10:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。