論文の概要: Benchmarks for Deep Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2103.16596v1
- Date: Tue, 30 Mar 2021 18:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:46:10.683956
- Title: Benchmarks for Deep Off-Policy Evaluation
- Title(参考訳): ディープオフポリティ評価のためのベンチマーク
- Authors: Justin Fu, Mohammad Norouzi, Ofir Nachum, George Tucker, Ziyu Wang,
Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral
Kumar, Cosmin Paduraru, Sergey Levine, Tom Le Paine
- Abstract要約: 我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
- 参考スコア(独自算出の注目度): 152.28569758144022
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Off-policy evaluation (OPE) holds the promise of being able to leverage
large, offline datasets for both evaluating and selecting complex policies for
decision making. The ability to learn offline is particularly important in many
real-world domains, such as in healthcare, recommender systems, or robotics,
where online data collection is an expensive and potentially dangerous process.
Being able to accurately evaluate and select high-performing policies without
requiring online interaction could yield significant benefits in safety, time,
and cost for these applications. While many OPE methods have been proposed in
recent years, comparing results between papers is difficult because currently
there is a lack of a comprehensive and unified benchmark, and measuring
algorithmic progress has been challenging due to the lack of difficult
evaluation tasks. In order to address this gap, we present a collection of
policies that in conjunction with existing offline datasets can be used for
benchmarking off-policy evaluation. Our tasks include a range of challenging
high-dimensional continuous control problems, with wide selections of datasets
and policies for performing policy selection. The goal of our benchmark is to
provide a standardized measure of progress that is motivated from a set of
principles designed to challenge and test the limits of existing OPE methods.
We perform an evaluation of state-of-the-art algorithms and provide open-source
access to our data and code to foster future research in this area.
- Abstract(参考訳): オフ政治評価(OPE)は、意思決定のための複雑なポリシーの評価と選択の両方に、大規模なオフラインデータセットを活用することを約束している。
オフラインで学ぶ能力は、オンラインデータ収集が高価で潜在的に危険なプロセスである医療、レコメンデーションシステム、ロボティクスなど、多くの現実世界のドメインで特に重要である。
オンラインインタラクションを必要とせず、正確にハイパフォーマンスなポリシーを評価および選択できることは、これらのアプリケーションの安全性、時間、コストに大きな利益をもたらす可能性がある。
近年、多くのOPE手法が提案されているが、現在では総合的かつ統一的なベンチマークが欠如しており、評価タスクの欠如によりアルゴリズムの進歩の測定が困難になっているため、論文の比較は困難である。
このギャップに対処するために,我々は,既存のオフラインデータセットと連携して,オフライン評価のベンチマークに使用できるポリシーの集合を提案する。
我々のタスクは、多岐にわたる高次元連続制御問題を含み、幅広いデータセットの選択とポリシーの選択を行う。
私たちのベンチマークの目的は、既存のOPEメソッドの限界に挑戦し、テストするために設計された一連の原則から動機付けられた、標準化された進捗測定を提供することです。
我々は最先端のアルゴリズムの評価を行い、この領域における将来の研究を促進するために、我々のデータとコードへのオープンソースアクセスを提供する。
関連論文リスト
- An Efficient Continuous Control Perspective for Reinforcement-Learning-based Sequential Recommendation [14.506332665769746]
本稿では,UnderlinetextbfEfficient UnderlinetextbfContinuous UnderlinetextbfControl framework (ECoC)を提案する。
まず、統計的に検証された仮定に基づいて、正規化されたユーザとアイテム空間から抽象化された新しい統一されたアクション表現を提案する。
このプロセスでは、統合された行動の観点から戦略的な探索と方向性の制御が慎重に設計され、最終的な勧告決定に不可欠である。
論文 参考訳(メタデータ) (2024-08-15T09:26:26Z) - OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Offline Policy Evaluation and Optimization under Confounding [35.778917456294046]
構築されたMDPのオフライン政策評価の状況について概説する。
一貫性のある値推定が達成不可能な設定を特徴付ける。
オフライン政策改善のための新しいアルゴリズムを提案し、局所収束保証を証明する。
論文 参考訳(メタデータ) (2022-11-29T20:45:08Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Doubly Robust Interval Estimation for Optimal Policy Evaluation in Online Learning [8.736154600219685]
オンライン学習における政策評価が注目を集めている。
しかし、オンライン環境で生成された依存データのため、このような問題は特に困難である。
本研究では,オンライン学習における最適ポリシーに基づいて,2倍頑健区間推定法(DREAM)を開発した。
論文 参考訳(メタデータ) (2021-10-29T02:38:54Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Active Offline Policy Selection [19.18251239758809]
本稿では,ログデータの多いドメインにおけるポリシ選択の問題に対処するが,インタラクション予算が非常に制限されている。
ログデータのみを用いてポリシーの価値を評価するために、いくつかのオフ・ポリティクス・アセスメント(OPE)技術が提案されている。
本稿では、ログデータとオンラインインタラクションの制限を組み合わさって、最適なポリシーを識別する、新しい緊急オフラインポリシー選択問題の定式化を導入する。
論文 参考訳(メタデータ) (2021-06-18T17:33:13Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。