論文の概要: Showing Your Offline Reinforcement Learning Work: Online Evaluation
Budget Matters
- arxiv url: http://arxiv.org/abs/2110.04156v1
- Date: Fri, 8 Oct 2021 14:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 17:34:40.204167
- Title: Showing Your Offline Reinforcement Learning Work: Online Evaluation
Budget Matters
- Title(参考訳): オフライン強化学習の成果を示す:オンライン評価予算
- Authors: Vladislav Kurenkov, Sergey Kolesnikov
- Abstract要約: 本稿では,オンライン評価予算の固定化を前提として,最良方針の性能評価を行う評価手法を提案する。
オンライン評価予算の制限により、行動的クローンは、さまざまな専門家レベルやデータレシエーションに対して強力なベースラインとなっていることが分かりました。
提案手法がオフライン-RL実践者のツールセットに組み込まれて,実世界のシステムにRLをデプロイする際の情報的な結論に到達できることを期待する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the recent years, vast progress has been made in Offline Reinforcement
Learning (Offline-RL) for various decision-making domains: from finance to
robotics. However, comparing and reporting new Offline-RL algorithms has been
noted as underdeveloped: (1) use of unlimited online evaluation budget for
hyperparameter search (2) sidestepping offline policy selection (3) ad-hoc
performance statistics reporting. In this work, we propose an evaluation
technique addressing these issues, Expected Online Performance, that provides a
performance estimate for a best-found policy given a fixed online evaluation
budget. Using our approach, we can estimate the number of online evaluations
required to surpass a given behavioral policy performance. Applying it to
several Offline-RL baselines, we find that with a limited online evaluation
budget, (1) Behavioral Cloning constitutes a strong baseline over various
expert levels and data regimes, and (2) offline uniform policy selection is
competitive with value-based approaches. We hope the proposed technique will
make it into the toolsets of Offline-RL practitioners to help them arrive at
informed conclusions when deploying RL in real-world systems.
- Abstract(参考訳): 近年、金融からロボティクスまで、さまざまな意思決定領域のオフライン強化学習(オフラインrl)において、大きな進歩を遂げている。
しかし、新しいオフラインrlアルゴリズムの比較と報告は、(1)ハイパーパラメータ検索のための無制限オンライン評価予算の使用(2)オフラインポリシー選択のサイドステッピング(3)アドホックなパフォーマンス統計レポートである。
本研究では,これらの課題に対処する評価手法,期待オンライン性能を提案し,オンライン評価予算の固定化を前提とした最適方針の評価を行う。
提案手法を用いることで,行動政策のパフォーマンスを超えるために必要なオンライン評価回数を推定できる。
複数のオフラインrlベースラインに適用すると、オンライン評価予算が限られており、(1)行動のクローニングはさまざまなエキスパートレベルやデータレジームに対して強いベースラインであり、(2)オフラインの統一ポリシーの選択は価値ベースのアプローチと競合することが分かる。
提案手法がオフライン-RL実践者のツールセットに組み込まれて,実世界のシステムにRLをデプロイする際の情報的な結論に到達できることを期待する。
関連論文リスト
- A Non-Monolithic Policy Approach of Offline-to-Online Reinforcement Learning [2.823645435281551]
オフラインからオンラインへの強化学習(RL)は、トレーニング済みのオフラインポリシと、ダウンストリームタスクのためにトレーニングされたオンラインポリシの両方を使用する。
本研究では, モノリシックな探査手法を用いたオフライン・オフラインRL手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T08:49:37Z) - Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL [42.57662196581823]
オフ・ポリティクス強化学習(RL)は、多くの複雑な現実世界のタスクに取り組むことで顕著な成功を収めた。
既存のRLアルゴリズムの多くは、リプレイバッファ内の情報を最大限活用できない。
OBAC(Offline-Boosted Actor-Critic)は、モデルのないオンラインRLフレームワークで、優れたオフラインポリシーをエレガントに識別する。
論文 参考訳(メタデータ) (2024-05-28T18:38:46Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。