論文の概要: Offline Policy Comparison under Limited Historical Agent-Environment
Interactions
- arxiv url: http://arxiv.org/abs/2106.03934v1
- Date: Mon, 7 Jun 2021 19:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:17:59.483603
- Title: Offline Policy Comparison under Limited Historical Agent-Environment
Interactions
- Title(参考訳): 限られた歴史的エージェント環境相互作用下におけるオフライン政策比較
- Authors: Anton Dereventsov and Joseph D. Daws Jr. and Clayton Webster
- Abstract要約: 強化学習システムの現実的な応用における政策評価の課題に対処する。
我々は,利用可能な歴史データに基づいて,政策比較,すなわち,その価値の観点から,政策のランク付けを行うことを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenge of policy evaluation in real-world applications of
reinforcement learning systems where the available historical data is limited
due to ethical, practical, or security considerations. This constrained
distribution of data samples often leads to biased policy evaluation estimates.
To remedy this, we propose that instead of policy evaluation, one should
perform policy comparison, i.e. to rank the policies of interest in terms of
their value based on available historical data. In addition we present the
Limited Data Estimator (LDE) as a simple method for evaluating and comparing
policies from a small number of interactions with the environment. According to
our theoretical analysis, the LDE is shown to be statistically reliable on
policy comparison tasks under mild assumptions on the distribution of the
historical data. Additionally, our numerical experiments compare the LDE to
other policy evaluation methods on the task of policy ranking and demonstrate
its advantage in various settings.
- Abstract(参考訳): 我々は,倫理的,実践的,あるいはセキュリティ上の配慮から利用可能な歴史データが制限されている強化学習システムの現実的な応用における政策評価の課題に対処する。
この制約付きデータサンプルの分散は、しばしばバイアス付きポリシー評価の見積もりにつながる。
これを改善するために,政策評価の代わりに政策比較を行うことを提案する。
利用可能な歴史データに基づいて 価値の観点から 利害政策をランク付けします
さらに,環境と少数のインタラクションからポリシーを評価し,比較する簡単な方法として,LDE(Limited Data Estimator)を提案する。
理論的分析により,ldeは,歴史的データ分布の軽度な仮定の下で,政策比較タスクにおいて統計的に信頼性が高いことが示された。
また,我々は,ldeを他の政策評価手法と比較し,様々な環境でその利点を実証する実験を行った。
関連論文リスト
- Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Offline Policy Comparison with Confidence: Benchmarks and Baselines [28.775565917880915]
OPC with Confidence (OPCC) のベンチマークを作成し、オフラインの強化学習からデータセットにポリシー比較クエリのセットを追加する。
また,モデルベースラインのクラスに対するリスク対カバレッジトレードオフの実証評価を行った。
論文 参考訳(メタデータ) (2022-05-22T04:28:25Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - A Practical Guide of Off-Policy Evaluation for Bandit Problems [13.607327477092877]
オフ政治評価(OPE)とは、異なる政策によって得られたサンプルから対象政策の価値を推定する問題である。
既存のOPE推定器に基づくメタアルゴリズムを提案する。
実験において,人工的およびオープンな実世界のデータセットを用いて提案する概念について検討する。
論文 参考訳(メタデータ) (2020-10-23T15:11:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Off-Policy Evaluation and Learning for External Validity under a
Covariate Shift [32.37842308026544]
我々は,異なる政策から得られた履歴データを用いて,評価データに対する新たなポリシーの評価と訓練を検討する。
オフ政治評価(OPE)の目標は、評価データに対する新しい政策の期待報酬を推定することであり、オフ政治学習(OPL)の目標は、評価データに対する期待報酬を最大化する新しい政策を見つけることである。
論文 参考訳(メタデータ) (2020-02-26T17:18:43Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。