論文の概要: Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.05723v3
- Date: Fri, 21 Jun 2024 13:13:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 20:27:44.260165
- Title: Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning
- Title(参考訳): オフライン・オンライン強化学習におけるアウト・オブ・ディストリビューションの計画
- Authors: Trevor McInroe, Adam Jelley, Stefano V. Albrecht, Amos Storkey,
- Abstract要約: オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。
そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 9.341618348621662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline pretraining with a static dataset followed by online fine-tuning (offline-to-online, or OtO) is a paradigm well matched to a real-world RL deployment process. In this scenario, we aim to find the best-performing policy within a limited budget of online interactions. Previous work in the OtO setting has focused on correcting for bias introduced by the policy-constraint mechanisms of offline RL algorithms. Such constraints keep the learned policy close to the behavior policy that collected the dataset, but we show this can unnecessarily limit policy performance if the behavior policy is far from optimal. Instead, we forgo constraints and frame OtO RL as an exploration problem that aims to maximize the benefit of online data-collection. We first study the major online RL exploration methods based on intrinsic rewards and UCB in the OtO setting, showing that intrinsic rewards add training instability through reward-function modification, and UCB methods are myopic and it is unclear which learned-component's ensemble to use for action selection. We then introduce an algorithm for planning to go out-of-distribution (PTGOOD) that avoids these issues. PTGOOD uses a non-myopic planning procedure that targets exploration in relatively high-reward regions of the state-action space unlikely to be visited by the behavior policy. By leveraging concepts from the Conditional Entropy Bottleneck, PTGOOD encourages data collected online to provide new information relevant to improving the final deployment policy without altering rewards. We show empirically in several continuous control tasks that PTGOOD significantly improves agent returns during online fine-tuning and avoids the suboptimal policy convergence that many of our baselines exhibit in several environments.
- Abstract(参考訳): 静的データセットによるオフライン事前トレーニングに続いて、オンラインファインチューニング(オフラインからオフライン、あるいはOtO)は、現実世界のRLデプロイメントプロセスによくマッチするパラダイムである。
このシナリオでは、オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目的としている。
OtO設定における以前の研究は、オフラインRLアルゴリズムのポリシー制約機構によって導入されたバイアスの修正に重点を置いていた。
このような制約は、学習したポリシーをデータセットを収集した行動ポリシーに近く保ちますが、行動ポリシーが最適ではない場合、この制約はポリシーのパフォーマンスを不必要に制限する可能性があることを示します。
代わりに、オンラインデータ収集のメリットを最大化することを目的とした探索問題として、制約を廃止し、OtO RLを定めています。
OtO設定における固有報酬と UCB に基づく主要なオンライン RL 探索手法を最初に研究し、固有報酬が報酬-機能修正によるトレーニング不安定性を高め、UTB 法が筋電図であり、学習者がどのアンサンブルを用いて行動選択を行うかは不明確であることを示した。
次に,これらの問題を回避するために,配電所外(PTGOOD)を計画するアルゴリズムを導入する。
PTGOODは、行動方針によって訪れる可能性が低い比較的高水準の国家行動空間における探索を対象とする、非明視的な計画手順を使用している。
Conditional Entropy Bottleneckの概念を活用することで、PTGOODはオンラインで収集されたデータを奨励し、報酬を変更することなく最終的なデプロイメントポリシを改善するための新たな情報を提供する。
我々は、PTGOODがオンラインの微調整中にエージェントリターンを大幅に改善する連続制御タスクを経験的に示し、我々のベースラインの多くがいくつかの環境で示している最適政策収束を回避する。
関連論文リスト
- Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Behavior Proximal Policy Optimization [14.701955559885615]
オフライン強化学習(英語: offline reinforcement learning, RL)は、既存の非政治アクター批判的手法が不十分な課題である。
オンラインのオンライン政治アルゴリズムは、自然にオフラインのRLを解くことができる。
本稿では,制約や正規化を伴わずにオフラインのRLを解消する振舞いプロキシポリシー最適化(BPPO)を提案する。
論文 参考訳(メタデータ) (2023-02-22T11:49:12Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and
Stable Online Fine-Tuning [7.462336024223669]
主な課題は、データに存在しないアクションに対する過大評価バイアスを克服することである。
このバイアスを減らすための簡単な方法は、行動的クローニング(BC)を通じてポリシー制約を導入することである。
私たちは、BCコンポーネントの影響を減らしながら、ポリシーをオフラインでトレーニングし続けることで、洗練されたポリシーを作成できることを実証します。
論文 参考訳(メタデータ) (2022-11-21T19:10:27Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。