論文の概要: Policy Finetuning in Reinforcement Learning via Design of Experiments
using Offline Data
- arxiv url: http://arxiv.org/abs/2307.04354v1
- Date: Mon, 10 Jul 2023 05:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:00:23.109510
- Title: Policy Finetuning in Reinforcement Learning via Design of Experiments
using Offline Data
- Title(参考訳): オフラインデータを用いた実験設計による強化学習における政策微調整
- Authors: Ruiqi Zhang, Andrea Zanette
- Abstract要約: オフラインのデータセットを利用して、探索のための単一の非反応性ポリシーを設計できるアルゴリズムを提案する。
理論的には,アルゴリズムを解析し,最終方針の質を,元のデータセットの局所的カバレッジと収集した追加データ量の関数として測定する。
- 参考スコア(独自算出の注目度): 17.317841035807696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In some applications of reinforcement learning, a dataset of pre-collected
experience is already available but it is also possible to acquire some
additional online data to help improve the quality of the policy. However, it
may be preferable to gather additional data with a single, non-reactive
exploration policy and avoid the engineering costs associated with switching
policies.
In this paper we propose an algorithm with provable guarantees that can
leverage an offline dataset to design a single non-reactive policy for
exploration. We theoretically analyze the algorithm and measure the quality of
the final policy as a function of the local coverage of the original dataset
and the amount of additional data collected.
- Abstract(参考訳): 強化学習のいくつかのアプリケーションでは、事前収集された経験のデータセットがすでに利用可能であるが、ポリシーの品質を改善するのに役立つ追加のオンラインデータを取得することもできる。
しかしながら、単一の非反応性探索ポリシーで追加データを収集し、スイッチングポリシーに関連するエンジニアリングコストを回避することが望ましい。
本稿では、オフラインデータセットを利用して探索のための単一の非反応性ポリシーを設計できる証明可能な保証付きアルゴリズムを提案する。
理論的には,アルゴリズムを解析し,最終方針の質を,元のデータセットの局所的カバレッジと収集した追加データ量の関数として測定する。
関連論文リスト
- OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Statistically Efficient Advantage Learning for Offline Reinforcement
Learning in Infinite Horizons [16.635744815056906]
モバイルヘルスアプリケーションなどのオンラインデータ収集を伴わないオフライン領域での強化学習手法を検討する。
提案手法は、既存の最先端RLアルゴリズムによって計算された最適Q推定器を入力とし、初期Q推定器に基づいて導出されたポリシーよりも高速に収束することが保証された新しいポリシーを出力する。
論文 参考訳(メタデータ) (2022-02-26T15:29:46Z) - Robust On-Policy Data Collection for Data-Efficient Policy Evaluation [7.745028845389033]
政策評価では、関心のある環境に対する評価政策の期待したリターンを見積もる。
我々は、潜在的に大きなオフラインRLデータセットと組み合わせるために、少量の追加データを収集できる設定を検討します。
この設定では、単に評価ポリシ -- オンラインデータ収集 -- を実行することが、サブ最適であることを示します。
論文 参考訳(メタデータ) (2021-11-29T14:30:26Z) - Policy Learning with Adaptively Collected Data [22.839095992238537]
適応的に収集されたデータで最適な政策を学ぶという課題に対処します。
一般化された逆確率重み付き推定器に基づくアルゴリズムを提案する。
合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2021-05-05T22:03:10Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。