論文の概要: Robust Counterfactual Inference in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2502.13731v1
- Date: Wed, 19 Feb 2025 13:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:59.263411
- Title: Robust Counterfactual Inference in Markov Decision Processes
- Title(参考訳): マルコフ決定過程におけるロバストな因果推論
- Authors: Jessica Lally, Milad Kazemi, Nicola Paoletti,
- Abstract要約: 現在のアプローチでは、カウンターファクトを識別するために特定の因果モデルを想定している。
反実遷移確率の厳密な境界を計算できる新しい非パラメトリック手法を提案する。
- 参考スコア(独自算出の注目度): 1.5197843979051473
- License:
- Abstract: This paper addresses a key limitation in existing counterfactual inference methods for Markov Decision Processes (MDPs). Current approaches assume a specific causal model to make counterfactuals identifiable. However, there are usually many causal models that align with the observational and interventional distributions of an MDP, each yielding different counterfactual distributions, so fixing a particular causal model limits the validity (and usefulness) of counterfactual inference. We propose a novel non-parametric approach that computes tight bounds on counterfactual transition probabilities across all compatible causal models. Unlike previous methods that require solving prohibitively large optimisation problems (with variables that grow exponentially in the size of the MDP), our approach provides closed-form expressions for these bounds, making computation highly efficient and scalable for non-trivial MDPs. Once such an interval counterfactual MDP is constructed, our method identifies robust counterfactual policies that optimise the worst-case reward w.r.t. the uncertain interval MDP probabilities. We evaluate our method on various case studies, demonstrating improved robustness over existing methods.
- Abstract(参考訳): 本稿では,マルコフ決定過程(MDPs)の既存の逆ファクト推論手法における重要な制限について述べる。
現在のアプローチでは、カウンターファクトを識別するために特定の因果モデルを想定している。
しかし、通常、MDPの観察的および介入的分布と一致する多くの因果モデルがあり、それぞれ異なる反事実的分布を生じるので、特定の因果モデルを修正することは反事実的推論の妥当性(および有用性)を制限する。
そこで本研究では,すべての因果関係モデルにおける反実効遷移確率の厳密な境界を計算できる新しい非パラメトリック手法を提案する。
MDPの規模が指数関数的に大きくなる変数を含む)不当に大規模な最適化問題を解く従来の方法とは異なり、本手法はこれらの境界に対して閉形式表現を提供し、非自明なMDPに対して計算を極めて効率的かつスケーラブルにする。
このような区間的反事実的 MDP を構築すると、不確実な区間的 MDP 確率で最悪の場合の報酬を最適化するロバストな反事実的ポリシーを同定する。
本手法を様々なケーススタディで評価し,既存手法に対するロバスト性の向上を実証した。
関連論文リスト
- What Are the Odds? Improving the foundations of Statistical Model Checking [3.789219860006095]
マルコフ決定プロセス(MDP)は不確実性の下での意思決定の基本的なモデルである。
従来の検証アルゴリズムは、MDPの振る舞いを管理する確率の正確な知識を前提としている。
我々はMDPの知識を活用する専門的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-08T11:47:46Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Robust Markov Decision Processes without Model Estimation [32.16801929347098]
堅牢なMDPの適用には,2つの大きな障壁がある。
第一に、ほとんどの研究はモデルベース体制における堅牢なMDPを研究している。
第二に、先行研究は通常、最適な解を得るために強いオラクルを仮定する。
論文 参考訳(メタデータ) (2023-02-02T17:29:10Z) - Robust Anytime Learning of Markov Decision Processes [8.799182983019557]
データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。
不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。
本稿では,ベイズ的推論スキームとロバストポリシーの計算を組み合わせた,頑健な任意の時間学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T14:29:55Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Adversarial Robustness Verification and Attack Synthesis in Stochastic
Systems [8.833548357664606]
我々は、離散時間マルコフ連鎖(DTMC)として定義されるシステムにおける対向的堅牢性のための公式な枠組みを開発する。
我々は、元の遷移確率の周囲に$varepsilon$ボールで制約された、敵がシステム遷移を摂動できる脅威モデルのクラスを概説する。
論文 参考訳(メタデータ) (2021-10-05T15:52:47Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Efficient semidefinite-programming-based inference for binary and
multi-class MRFs [83.09715052229782]
分割関数やMAP推定をペアワイズMRFで効率的に計算する手法を提案する。
一般のバイナリMRFから完全多クラス設定への半定緩和を拡張し、解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。
論文 参考訳(メタデータ) (2020-12-04T15:36:29Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Polynomial-Time Exact MAP Inference on Discrete Models with Global
Dependencies [83.05591911173332]
ジャンクションツリーアルゴリズムは、実行時の保証と正確なMAP推論のための最も一般的な解である。
本稿では,ノードのクローン化による新たなグラフ変換手法を提案する。
論文 参考訳(メタデータ) (2019-12-27T13:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。