論文の概要: Uncertainty Quantification and Causal Considerations for Off-Policy Decision Making
- arxiv url: http://arxiv.org/abs/2502.06011v1
- Date: Sun, 09 Feb 2025 20:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:10.168034
- Title: Uncertainty Quantification and Causal Considerations for Off-Policy Decision Making
- Title(参考訳): オフポリティ意思決定における不確かさの定量化と因果的考察
- Authors: Muhammad Faaiz Taufiq,
- Abstract要約: オフ政治評価(OPE)は、異なる政策の下で収集されたデータを用いて、新しい政策のパフォーマンスを評価する。
既存のOPE手法は、統計的不確実性や因果的考慮から生じるいくつかの制限に悩まされている。
結果の限界分布に着目して分散を低減する新しい OPE 手法である Marginal Ratio (MR) 推定器を導入する。
次に,OPEにおける不確実性定量化の原理的アプローチである Conformal Off-Policy Prediction (COPP) を提案する。
最後に, 政策外の意思決定における因果不確定性に対処する。
- 参考スコア(独自算出の注目度): 4.514386953429771
- License:
- Abstract: Off-policy evaluation (OPE) is a critical challenge in robust decision-making that seeks to assess the performance of a new policy using data collected under a different policy. However, the existing OPE methodologies suffer from several limitations arising from statistical uncertainty as well as causal considerations. In this thesis, we address these limitations by presenting three different works. Firstly, we consider the problem of high variance in the importance-sampling-based OPE estimators. We introduce the Marginal Ratio (MR) estimator, a novel OPE method that reduces variance by focusing on the marginal distribution of outcomes rather than direct policy shifts, improving robustness in contextual bandits. Next, we propose Conformal Off-Policy Prediction (COPP), a principled approach for uncertainty quantification in OPE that provides finite-sample predictive intervals, ensuring robust decision-making in risk-sensitive applications. Finally, we address causal unidentifiability in off-policy decision-making by developing novel bounds for sequential decision settings, which remain valid under arbitrary unmeasured confounding. We apply these bounds to assess the reliability of digital twin models, introducing a falsification framework to identify scenarios where model predictions diverge from real-world behaviour. Our contributions provide new insights into robust decision-making under uncertainty and establish principled methods for evaluating policies in both static and dynamic settings.
- Abstract(参考訳): オフ・ポリティィ・アセスメント(OPE)は、異なるポリシーの下で収集されたデータを用いて新しい政策のパフォーマンスを評価することを目指す、堅牢な意思決定における重要な課題である。
しかし、既存のOPE手法は、統計的不確実性や因果的考慮から生じるいくつかの制限に悩まされている。
この論文では、3つの異なる作品を提示することでこれらの制限に対処する。
まず、重要サンプリングに基づくOPE推定器における高分散の問題を考察する。
我々は,直接政策シフトではなく,結果の限界分布に着目し,文脈的包帯の堅牢性を改善することで分散を低減する新しいOPE手法であるMarginal Ratio (MR) 推定器を紹介する。
次に,OPEにおける不確実性定量化の原理的アプローチであるConformal Off-Policy Prediction (COPP)を提案する。
最後に、任意の未測定条件下でも有効であるシーケンシャルな決定設定のための新しい境界を開発することで、非政治的意思決定における因果不確定性に対処する。
これらの境界をデジタルツインモデルの信頼性評価に適用し、実世界の振る舞いからモデル予測が分岐するシナリオを特定するためのファルシフィケーションフレームワークを導入する。
我々の貢献は、不確実性の下での堅牢な意思決定に関する新たな洞察を提供し、静的および動的両方の設定でポリシーを評価するための原則化された方法を確立します。
関連論文リスト
- Predictive Performance Comparison of Decision Policies Under Confounding [32.21041697921289]
そこで本稿では, 意思決定ポリシーの予測性能を, 様々な現代的な識別手法で比較する手法を提案する。
我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。
論文 参考訳(メタデータ) (2024-04-01T01:27:07Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Projected State-action Balancing Weights for Offline Reinforcement
Learning [9.732863739456034]
本稿では,潜在的に異なるポリシから生成された事前収集データに基づいて,対象ポリシーの価値を推定することに焦点を当てる。
政策値推定のための状態-作用バランスウェイトを概算した新しい推定器を提案する。
数値実験により提案した推定器の性能を実証した。
論文 参考訳(メタデータ) (2021-09-10T03:00:44Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。