論文の概要: Adaptive Estimator Selection for Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2002.07729v2
- Date: Mon, 24 Aug 2020 14:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 19:52:02.439712
- Title: Adaptive Estimator Selection for Off-Policy Evaluation
- Title(参考訳): オフポリシー評価のための適応的推定器選択
- Authors: Yi Su, Pavithra Srinath, Akshay Krishnamurthy
- Abstract要約: オフポリシー評価設定における推定器選択のための汎用的データ駆動手法を開発した。
また,本手法の性能保証を確立し,オラクル推定器と競合することを示す。
- 参考スコア(独自算出の注目度): 48.66170976187225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a generic data-driven method for estimator selection in off-policy
policy evaluation settings. We establish a strong performance guarantee for the
method, showing that it is competitive with the oracle estimator, up to a
constant factor. Via in-depth case studies in contextual bandits and
reinforcement learning, we demonstrate the generality and applicability of the
method. We also perform comprehensive experiments, demonstrating the empirical
efficacy of our approach and comparing with related approaches. In both case
studies, our method compares favorably with existing methods.
- Abstract(参考訳): オフポリシー評価設定における推定器選択のための汎用データ駆動手法を開発した。
我々は、このメソッドに対する強力なパフォーマンス保証を確立し、oracle estimatorと競合していることを示します。
コンテキストバンディットと強化学習の詳細なケーススタディを通じて,本手法の汎用性と適用性を示す。
また, 包括的実験を行い, アプローチの実証的有効性を実証し, 関連するアプローチとの比較を行った。
いずれの場合も,本手法は既存手法と良好に比較できる。
関連論文リスト
- Online Estimation and Inference for Robust Policy Evaluation in
Reinforcement Learning [7.875680651592574]
本研究では,バハドゥル表現に基づくオンラインロバストな政策評価手法を開発し,推定器の限定分布を確立する。
本稿では、強化学習における頑健な統計と統計的推測のギャップを埋め、より汎用的で信頼性の高い政策評価手法を提供する。
論文 参考訳(メタデータ) (2023-10-04T04:57:35Z) - Counterfactual Learning with General Data-generating Policies [3.441021278275805]
我々は、コンテキスト帯域設定における完全なサポートと不足したサポートロギングポリシーのクラスのためのOPE手法を開発した。
サンプルサイズが大きくなるにつれて,本手法の予測値が実測値の真の性能に収束することが証明された。
論文 参考訳(メタデータ) (2022-12-04T21:07:46Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Safe Exploration for Efficient Policy Evaluation and Comparison [20.97686379166058]
バンディット政策評価のための効率的で安全なデータ収集について検討する。
各変種について、その統計特性を分析し、対応する探索ポリシーを導出し、それを計算するための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-02-26T21:41:44Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。