論文の概要: Counterfactual Explanations in Sequential Decision Making Under
Uncertainty
- arxiv url: http://arxiv.org/abs/2107.02776v1
- Date: Tue, 6 Jul 2021 17:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 16:13:51.821157
- Title: Counterfactual Explanations in Sequential Decision Making Under
Uncertainty
- Title(参考訳): 不確実性下におけるシークエンシャル決定の因果説明
- Authors: Stratis Tsirtsis, Abir De, Manuel Gomez-Rodriguez
- Abstract要約: 本研究では, 逐次的意思決定プロセスにおいて, 対実的説明を求める手法を開発した。
我々の問題定式化において、反実的説明は、少なくとも k 個の作用において異なる作用の別の列を特定する。
提案アルゴリズムは,不確実性の下での意思決定の促進に有用な洞察を与えることができることを示す。
- 参考スコア(独自算出の注目度): 27.763369810430653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Methods to find counterfactual explanations have predominantly focused on one
step decision making processes. In this work, we initiate the development of
methods to find counterfactual explanations for decision making processes in
which multiple, dependent actions are taken sequentially over time. We start by
formally characterizing a sequence of actions and states using finite horizon
Markov decision processes and the Gumbel-Max structural causal model. Building
upon this characterization, we formally state the problem of finding
counterfactual explanations for sequential decision making processes. In our
problem formulation, the counterfactual explanation specifies an alternative
sequence of actions differing in at most k actions from the observed sequence
that could have led the observed process realization to a better outcome. Then,
we introduce a polynomial time algorithm based on dynamic programming to build
a counterfactual policy that is guaranteed to always provide the optimal
counterfactual explanation on every possible realization of the counterfactual
environment dynamics. We validate our algorithm using both synthetic and real
data from cognitive behavioral therapy and show that the counterfactual
explanations our algorithm finds can provide valuable insights to enhance
sequential decision making under uncertainty.
- Abstract(参考訳): カウンターファクトな説明を見つける方法は、主に1ステップの意思決定プロセスに焦点を当てている。
本研究では,複数の従属行動が時間とともに順次行われる意思決定プロセスに対して,反事実的説明を求める手法の開発を開始する。
まず、有限地平線マルコフ決定過程とグンベル・マックス構造因果モデルを用いて、動作と状態の列を形式的に特徴付ける。
この特徴に基づいて,逐次的意思決定プロセスにおける反事実的説明を求める問題を形式的に述べる。
問題の定式化において、反事実的説明は、観察されたプロセスの実現をよりよい結果に導く可能性のある観測されたシーケンスから、最大kアクションで異なるアクションの別のシーケンスを特定する。
次に, 動的計画法に基づく多項式時間アルゴリズムを導入し, 相反環境力学の可能な全ての実現について, 常に最適な相反的説明を提供することが保証される相反的ポリシーを構築する。
認知行動療法から得られた合成データと実データの両方を用いてアルゴリズムを検証し,不確実性下での逐次的意思決定を促進するために,アルゴリズムが発見する反事実的説明が貴重な知見となることを示す。
関連論文リスト
- Generating Feasible and Plausible Counterfactual Explanations for Outcome Prediction of Business Processes [45.502284864662585]
データ駆動型アプローチであるREVISEDplusを導入し、妥当な対実的説明を生成する。
まず, プロセスデータの高密度領域内に存在する反ファクトデータを生成するために, 反ファクトアルゴリズムを限定する。
また、プロセスケースにおけるアクティビティ間のシーケンシャルなパターンを学習することで、妥当性を保証します。
論文 参考訳(メタデータ) (2024-03-14T09:56:35Z) - Anomaly Detection via Learning-Based Sequential Controlled Sensing [25.282033825977827]
本稿では,学習に基づく制御センシングによるバイナリプロセス間の異常検出の問題に対処する。
異常を識別するために、意思決定エージェントは、各時点でプロセスのサブセットを観察することができる。
我々の目標は、どの過程を観察するかを動的に決定するシーケンシャルな選択ポリシーを設計することである。
論文 参考訳(メタデータ) (2023-11-30T07:49:33Z) - Inverse Decision Modeling: Learning Interpretable Representations of
Behavior [72.80902932543474]
我々は,逆決定モデルに関する表現的,統一的な視点を開拓する。
これを逆問題(記述モデルとして)の形式化に用います。
この構造が(有界な)有理性の学習(解釈可能な)表現を可能にする方法について説明する。
論文 参考訳(メタデータ) (2023-10-28T05:05:01Z) - Finding Counterfactually Optimal Action Sequences in Continuous State
Spaces [22.84932480886562]
有限水平マルコフ決定過程を用いた離散的な行動と連続状態の列を記述する。
次に,環境のダイナミクスの連続性に基づく探索手法を開発する。
提案手法は実際は非常に効率的であり, 逐次意思決定タスクに興味深い洞察を与える可能性がある。
論文 参考訳(メタデータ) (2023-06-06T18:00:29Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文 参考訳(メタデータ) (2021-06-28T21:29:13Z) - Efficient PAC Reinforcement Learning in Regular Decision Processes [99.02383154255833]
定期的な意思決定プロセスで強化学習を研究します。
我々の主な貢献は、最適に近いポリシーをパラメータのセットで時間内にPACを学習できることである。
論文 参考訳(メタデータ) (2021-05-14T12:08:46Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Approximating Euclidean by Imprecise Markov Decision Processes [3.0017241250121383]
我々は、ユークリッド過程が有限状態近似によって近似されるとき、どのような近似保証が得られるかを検討する。
有限時間地平線上のコスト関数について、近似が任意に正確になることを示す。
論文 参考訳(メタデータ) (2020-06-26T11:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。