論文の概要: Universal Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2104.12820v1
- Date: Mon, 26 Apr 2021 18:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 13:26:27.354111
- Title: Universal Off-Policy Evaluation
- Title(参考訳): ユニバーサルオフポリシー評価
- Authors: Yash Chandak, Scott Niekum, Bruno Castro da Silva, Erik
Learned-Miller, Emma Brunskill, Philip S. Thomas
- Abstract要約: ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
- 参考スコア(独自算出の注目度): 64.02853483874334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When faced with sequential decision-making problems, it is often useful to be
able to predict what would happen if decisions were made using a new policy.
Those predictions must often be based on data collected under some previously
used decision-making rule. Many previous methods enable such off-policy (or
counterfactual) estimation of the expected value of a performance measure
called the return. In this paper, we take the first steps towards a universal
off-policy estimator (UnO) -- one that provides off-policy estimates and
high-confidence bounds for any parameter of the return distribution. We use UnO
for estimating and simultaneously bounding the mean, variance,
quantiles/median, inter-quantile range, CVaR, and the entire cumulative
distribution of returns. Finally, we also discuss Uno's applicability in
various settings, including fully observable, partially observable (i.e., with
unobserved confounders), Markovian, non-Markovian, stationary, smoothly
non-stationary, and discrete distribution shifts.
- Abstract(参考訳): 逐次的な意思決定問題に直面した場合には、新しい方針を使って意思決定を行った場合、何が起こるかを予測するのに有用であることが多い。
これらの予測は、しばしば、以前使用されていた意思決定規則で収集されたデータに基づいている必要がある。
以前の多くの手法は、リターンと呼ばれるパフォーマンス指標の期待値の非政治的(あるいは反実的)推定を可能にする。
そこで,本稿では,アウトポリシー推定と回帰分布のパラメータに対する高い信頼度境界を提供するユニバーサルオフポリシー推定器 (uno) への第一歩を踏み出す。
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
最後に, 可観測性, 部分可観測性, マルコフ的, 非マルコフ的, 定常的, スムーズな非定常的, 離散的分布シフトなど, 様々な環境における宇野の適用性についても論じる。
関連論文リスト
- Quantile Regression using Random Forest Proximities [0.9423257767158634]
量子回帰林は、対象変数の条件分布全体を単一のモデルで推定する。
本研究では,ランダムフォレスト近似を用いた量子レグレッションを用いて,QRFの原バージョンに対する条件目標分布と予測間隔の近似において,優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-08-05T10:02:33Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Regression with reject option and application to kNN [0.0]
我々は、このフレームワークをrejectオプションによる回帰として、rejectオプションによる分類の拡張として参照する。
2つのデータセットを含む最適規則を半教師付きで推定する手法を提案する。
その結果、リジェクションオプションを持つ予測器は、リスクとリジェクションレートの両方の観点から、リジェクションオプションを持つ最適予測器とほぼ同等であることが示された。
論文 参考訳(メタデータ) (2020-06-30T08:20:57Z) - Batch Stationary Distribution Estimation [98.18201132095066]
サンプル遷移の組を与えられたエルゴードマルコフ鎖の定常分布を近似する問題を考える。
与えられたデータに対する補正比関数の復元に基づく一貫した推定器を提案する。
論文 参考訳(メタデータ) (2020-03-02T09:10:01Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。