論文の概要: Conformal Off-Policy Evaluation in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2304.02574v2
- Date: Tue, 19 Sep 2023 14:40:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 19:58:49.864717
- Title: Conformal Off-Policy Evaluation in Markov Decision Processes
- Title(参考訳): マルコフ決定過程におけるコンフォーマルオフポリシィ評価
- Authors: Daniele Foffano, Alessio Russo, Alexandre Proutiere
- Abstract要約: 強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
- 参考スコア(独自算出の注目度): 53.786439742572995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning aims at identifying and evaluating efficient control
policies from data. In many real-world applications, the learner is not allowed
to experiment and cannot gather data in an online manner (this is the case when
experimenting is expensive, risky or unethical). For such applications, the
reward of a given policy (the target policy) must be estimated using historical
data gathered under a different policy (the behavior policy). Most methods for
this learning task, referred to as Off-Policy Evaluation (OPE), do not come
with accuracy and certainty guarantees. We present a novel OPE method based on
Conformal Prediction that outputs an interval containing the true reward of the
target policy with a prescribed level of certainty. The main challenge in OPE
stems from the distribution shift due to the discrepancies between the target
and the behavior policies. We propose and empirically evaluate different ways
to deal with this shift. Some of these methods yield conformalized intervals
with reduced length compared to existing approaches, while maintaining the same
certainty level.
- Abstract(参考訳): 強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
多くの現実世界のアプリケーションでは、学習者は実験を許されず、オンラインの方法でデータを集めることができない(これは実験が高価で、リスクがあり、非倫理的である場合である)。
このような適用の場合、ある政策(対象政策)の報酬は、異なる政策(行動政策)の下で収集された歴史的データを用いて見積もる必要がある。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確性と確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
OPEの主な課題は、目標と行動方針の相違による分布シフトにある。
この変化に対処するさまざまな方法を提案し,実証的に評価する。
これらの方法のいくつかは、同じ確実性レベルを維持しつつ、既存のアプローチに比べて長さの少ない共形区間を与える。
関連論文リスト
- Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Counterfactual Learning with General Data-generating Policies [3.441021278275805]
我々は、コンテキスト帯域設定における完全なサポートと不足したサポートロギングポリシーのクラスのためのOPE手法を開発した。
サンプルサイズが大きくなるにつれて,本手法の予測値が実測値の真の性能に収束することが証明された。
論文 参考訳(メタデータ) (2022-12-04T21:07:46Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - A Practical Guide of Off-Policy Evaluation for Bandit Problems [13.607327477092877]
オフ政治評価(OPE)とは、異なる政策によって得られたサンプルから対象政策の価値を推定する問題である。
既存のOPE推定器に基づくメタアルゴリズムを提案する。
実験において,人工的およびオープンな実世界のデータセットを用いて提案する概念について検討する。
論文 参考訳(メタデータ) (2020-10-23T15:11:19Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。