論文の概要: Robust On-Policy Data Collection for Data-Efficient Policy Evaluation
- arxiv url: http://arxiv.org/abs/2111.14552v1
- Date: Mon, 29 Nov 2021 14:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 23:28:28.571992
- Title: Robust On-Policy Data Collection for Data-Efficient Policy Evaluation
- Title(参考訳): データ効率な政策評価のためのロバストなオンラインデータ収集
- Authors: Rujie Zhong, Josiah P. Hanna, Lukas Sch\"afer, Stefano V. Albrecht
- Abstract要約: 政策評価では、関心のある環境に対する評価政策の期待したリターンを見積もる。
我々は、潜在的に大きなオフラインRLデータセットと組み合わせるために、少量の追加データを収集できる設定を検討します。
この設定では、単に評価ポリシ -- オンラインデータ収集 -- を実行することが、サブ最適であることを示します。
- 参考スコア(独自算出の注目度): 7.745028845389033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers how to complement offline reinforcement learning (RL)
data with additional data collection for the task of policy evaluation. In
policy evaluation, the task is to estimate the expected return of an evaluation
policy on an environment of interest. Prior work on offline policy evaluation
typically only considers a static dataset. We consider a setting where we can
collect a small amount of additional data to combine with a potentially larger
offline RL dataset. We show that simply running the evaluation policy --
on-policy data collection -- is sub-optimal for this setting. We then introduce
two new data collection strategies for policy evaluation, both of which
consider previously collected data when collecting future data so as to reduce
distribution shift (or sampling error) in the entire dataset collected. Our
empirical results show that compared to on-policy sampling, our strategies
produce data with lower sampling error and generally lead to lower mean-squared
error in policy evaluation for any total dataset size. We also show that these
strategies can start from initial off-policy data, collect additional data, and
then use both the initial and new data to produce low mean-squared error policy
evaluation without using off-policy corrections.
- Abstract(参考訳): 本稿では,オフライン強化学習(rl)データを,政策評価タスクのための追加データ収集で補完する方法を検討する。
政策評価では、関心のある環境に対する評価政策の期待したリターンを推定する。
オフラインポリシー評価の以前の作業は、通常静的データセットのみを考慮する。
我々は、潜在的に大きなオフラインRLデータセットと組み合わせるために、少量の追加データを収集できる設定を検討します。
我々は、単に評価ポリシー、すなわち、政治データ収集を実行することが、この設定に最適であることを示す。
次に,今後のデータ収集時に予め収集したデータを考慮し,収集したデータセット全体の分散シフト(あるいはサンプリングエラー)を低減させる,ポリシ評価のための2つの新しいデータ収集戦略を提案する。
実証実験の結果, オンラインサンプリングと比較して, サンプリング誤差が低いデータを生成し, 総データセットサイズに対するポリシー評価において平均二乗誤差が低いことを示す。
また、これらの戦略は、初期政治外のデータから始まり、追加データを収集し、初期データと新データの両方を用いて、オフ政治の補正を使わずに、平均二乗誤差ポリシーの評価を低くすることができることを示す。
関連論文リスト
- Doubly Optimal Policy Evaluation for Reinforcement Learning [16.7091722884524]
政策評価は、しばしば大きなばらつきに悩まされ、望ましい精度を達成するために大量のデータを必要とする。
本研究では,データ収集ポリシーとデータ処理ベースラインの最適組み合わせを設計する。
理論的には、我々の二重最適政策評価法は偏りがなく、従来よりも分散度が低いことが保証されている。
論文 参考訳(メタデータ) (2024-10-03T05:47:55Z) - Dataset Clustering for Improved Offline Policy Learning [7.873623003095065]
オフラインポリシー学習は、環境と追加のオンラインインタラクションなしで、事前に収集されたデータセットから意思決定ポリシーを見つけることを目的としている。
本稿では,マルチビヘイビア(multi-behavior)と呼ぶデータセットの特徴について検討し,異なる振る舞いを示す複数のポリシーを用いてデータセットが収集されることを示す。
マルチビヘイビアデータセットを複数のユニビヘイビアサブセットに分割する振舞い対応のディープクラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T20:01:41Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling [3.5253513747455303]
そこで本稿では,オンラインポリシー勾配アルゴリズムのデータ効率向上のための適応型オフポリシーサンプリング手法を提案する。
我々の手法であるPROPS(Proximal Robust On-Policy Smpling)は,データ収集によるサンプリング誤差を低減する。
論文 参考訳(メタデータ) (2023-11-14T16:37:28Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Policy Finetuning in Reinforcement Learning via Design of Experiments
using Offline Data [17.317841035807696]
オフラインのデータセットを利用して、探索のための単一の非反応性ポリシーを設計できるアルゴリズムを提案する。
理論的には,アルゴリズムを解析し,最終方針の質を,元のデータセットの局所的カバレッジと収集した追加データ量の関数として測定する。
論文 参考訳(メタデータ) (2023-07-10T05:33:41Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。