論文の概要: Learning Robust Decision Policies from Observational Data
- arxiv url: http://arxiv.org/abs/2006.02355v1
- Date: Wed, 3 Jun 2020 16:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 17:47:11.941266
- Title: Learning Robust Decision Policies from Observational Data
- Title(参考訳): 観測データからロバスト決定ポリシーを学習する
- Authors: Muhammad Osama, Dave Zachariah, Peter Stoica
- Abstract要約: 高いコストで成果のリスクを減らすような堅牢な政策を学ぶことは、興味深いことです。
本研究では,特定のレベルでのコスト分布のテールを削減するための政策学習手法を開発した。
- 参考スコア(独自算出の注目度): 21.05564340986074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of learning a decision policy from observational data
of past decisions in contexts with features and associated outcomes. The past
policy maybe unknown and in safety-critical applications, such as medical
decision support, it is of interest to learn robust policies that reduce the
risk of outcomes with high costs. In this paper, we develop a method for
learning policies that reduce tails of the cost distribution at a specified
level and, moreover, provide a statistically valid bound on the cost of each
decision. These properties are valid under finite samples -- even in scenarios
with uneven or no overlap between features for different decisions in the
observed data -- by building on recent results in conformal prediction. The
performance and statistical properties of the proposed method are illustrated
using both real and synthetic data.
- Abstract(参考訳): 我々は,過去の意思決定の観察データから,特徴と関連する結果の文脈で意思決定ポリシーを学習する問題に対処する。
過去の方針はおそらく不明であり、医学的意思決定支援のような安全クリティカルな応用においては、高いコストで結果のリスクを低減させる強固な政策を学ぶことが重要である。
本稿では,特定のレベルでのコスト分布の尾尾を減らし,また,各決定のコストに統計的に妥当な制約を与える政策の学習方法を提案する。
これらの特性は有限なサンプルで有効であり、観測データ内の異なる決定のための特徴の重なりが不均一あるいは全くない場合であっても、最近の結果に基づいて共形予測を行う。
実データと合成データの両方を用いて,提案手法の性能と統計特性を示す。
関連論文リスト
- Predictive Performance Comparison of Decision Policies Under Confounding [32.21041697921289]
そこで本稿では, 意思決定ポリシーの予測性能を, 様々な現代的な識別手法で比較する手法を提案する。
我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。
論文 参考訳(メタデータ) (2024-04-01T01:27:07Z) - Learning under Selective Labels with Data from Heterogeneous
Decision-makers: An Instrumental Variable Approach [7.629248625993988]
本研究では,歴史的意思決定によって部分的にラベル付けされた結果が得られた場合に生じる,選択的ラベル付きデータによる学習の課題について検討する。
ラベル選択バイアスに頑健な予測規則を両識別設定で学習する重み付き学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T06:34:44Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Off-Policy Evaluation with Out-of-Sample Guarantees [21.527138355664174]
過去の観測データを用いて意思決定ポリシーの性能を評価することの問題点を考察する。
本研究では,損失分布全体について,有限サンプルのカバレッジ保証でそのような推論を導出可能であることを示す。
この評価方法は、特定の信頼可能なモデル仮定の範囲で観測データを用いてポリシーの性能を認証するために用いられる。
論文 参考訳(メタデータ) (2023-01-20T15:56:39Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Learning Pareto-Efficient Decisions with Confidence [21.915057426589748]
本稿では,結果が不確実な場合の多目的意思決定支援の問題点について考察する。
これにより、安全クリティカルなアプリケーションに関係のある末尾的な結果の観点から、意思決定間のトレードオフを定量化できます。
論文 参考訳(メタデータ) (2021-10-19T11:32:17Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。