論文の概要: Minimax Value Interval for Off-Policy Evaluation and Policy Optimization
- arxiv url: http://arxiv.org/abs/2002.02081v6
- Date: Wed, 4 Nov 2020 23:43:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 10:01:25.637322
- Title: Minimax Value Interval for Off-Policy Evaluation and Policy Optimization
- Title(参考訳): オフポリティ評価と政策最適化のためのミニマックス値インターバル
- Authors: Nan Jiang, Jiawei Huang
- Abstract要約: 価値関数と限界値重みを用いたオフ政治評価のためのミニマックス法について検討した。
従来の重要度サンプリングにおける指数的分散を克服する約束があるにもかかわらず、いくつかの重要な問題が残っている。
信頼できるOPEのために、偏見を定量化する手段はあるのだろうか?
- 参考スコア(独自算出の注目度): 28.085288472120705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study minimax methods for off-policy evaluation (OPE) using value
functions and marginalized importance weights. Despite that they hold promises
of overcoming the exponential variance in traditional importance sampling,
several key problems remain:
(1) They require function approximation and are generally biased. For the
sake of trustworthy OPE, is there anyway to quantify the biases?
(2) They are split into two styles ("weight-learning" vs "value-learning").
Can we unify them?
In this paper we answer both questions positively. By slightly altering the
derivation of previous methods (one from each style; Uehara et al., 2020), we
unify them into a single value interval that comes with a special type of
double robustness: when either the value-function or the importance-weight
class is well specified, the interval is valid and its length quantifies the
misspecification of the other class. Our interval also provides a unified view
of and new insights to some recent methods, and we further explore the
implications of our results on exploration and exploitation in off-policy
policy optimization with insufficient data coverage.
- Abstract(参考訳): 価値関数と限界化重要度重みを用いたオフポリシー評価(ope)のためのミニマックス法について検討した。
従来の重要度サンプリングにおける指数的分散を克服する約束があるにもかかわらず、いくつかの重要な問題が残っている: 1) 関数近似が必要であり、一般に偏りがある。
信頼できるOPEのために、偏見を定量化する手段はあるのだろうか?
2)2つのスタイル(「重み学習」と「価値学習」)に分けられる。
それらを統一できますか?
本稿では,両質問を肯定的に答える。
従来の方法の導出(各スタイルから1つずつ;uehara et al., 2020)を少し変更することで、これらを特別なタイプのダブルロバストネスを伴う単一の値区間に統一する: 値関数か重要度級のいずれかが適切に指定されている場合、その間隔は有効であり、その長さは他のクラスの誤特定を定量化する。
我々の間隔はまた、最近の手法に対する統一的な見解と新たな洞察を提供し、データカバレッジが不十分な非政治政策最適化における調査と活用における結果の影響をさらに探求する。
関連論文リスト
- Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Anytime-valid off-policy inference for contextual bandits [34.721189269616175]
コンテキストバンディットアルゴリズムは、観測されたコンテキストを$X_t$からアクションにマッピングする。
データの収集に使われたロギングポリシーと異なる仮説的ポリシーの特性を推定することは、しばしば関心がある。
我々は、過去の作業で不要な条件を緩和するOPE推論のための包括的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:53Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。