論文の概要: Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.05723v1
- Date: Mon, 9 Oct 2023 13:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 04:39:31.957032
- Title: Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement
Learning
- Title(参考訳): オフライン・オンライン強化学習におけるアウト・オブ・ディストリビューションの計画
- Authors: Trevor McInroe, Stefano V. Albrecht, Amos Storkey
- Abstract要約: オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
主要なオンラインRL探索パラダイムについて検討し、オフライン-オンライン設定でうまく機能するように適応する。
PTGOODは、オンラインの微調整中にエージェントリターンを大幅に改善し、Walkerの10kオンラインステップとHumanoidのような複雑な制御タスクで50kオンラインステップで最適なポリシーを見出す。
- 参考スコア(独自算出の注目度): 10.31844915748746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline pretraining with a static dataset followed by online fine-tuning
(offline-to-online, or OtO) is a paradigm that is well matched to a real-world
RL deployment process: in few real settings would one deploy an offline policy
with no test runs and tuning. In this scenario, we aim to find the
best-performing policy within a limited budget of online interactions. Previous
work in the OtO setting has focused on correcting for bias introduced by the
policy-constraint mechanisms of offline RL algorithms. Such constraints keep
the learned policy close to the behavior policy that collected the dataset, but
this unnecessarily limits policy performance if the behavior policy is far from
optimal. Instead, we forgo policy constraints and frame OtO RL as an
exploration problem: we must maximize the benefit of the online
data-collection. We study major online RL exploration paradigms, adapting them
to work well with the OtO setting. These adapted methods contribute several
strong baselines. Also, we introduce an algorithm for planning to go out of
distribution (PTGOOD), which targets online exploration in relatively
high-reward regions of the state-action space unlikely to be visited by the
behavior policy. By leveraging concepts from the Conditional Entropy
Bottleneck, PTGOOD encourages data collected online to provide new information
relevant to improving the final deployment policy. In that way the limited
interaction budget is used effectively. We show that PTGOOD significantly
improves agent returns during online fine-tuning and finds the optimal policy
in as few as 10k online steps in Walker and in as few as 50k in complex control
tasks like Humanoid. Also, we find that PTGOOD avoids the suboptimal policy
convergence that many of our baselines exhibit in several environments.
- Abstract(参考訳): 静的データセットによるオフライン事前トレーニングと、オンラインの微調整(オフライン-オンライン/oto)は、実際のrlデプロイメントプロセスとよくマッチするパラダイムである。
このシナリオでは、オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指している。
oto設定での以前の作業は、オフラインrlアルゴリズムのポリシー制約機構によって引き起こされるバイアスの修正に焦点を当てていた。
このような制約は、学習されたポリシーをデータセットを収集する行動ポリシーに近づけるが、行動ポリシーが最適ではない場合、不要にポリシーパフォーマンスを制限する。
代わりに、政策制約を廃止し、OtO RLを探索問題とみなし、オンラインデータ収集のメリットを最大化する必要があります。
我々は、主要なオンラインRL探索パラダイムを研究し、OtO設定でうまく機能するように適応する。
これらの適応手法は、いくつかの強力なベースラインをもたらす。
また,行動方針では見当たらない状態-行動空間の比較的高い領域におけるオンライン探索を対象とする,配電計画計画のためのアルゴリズム(ptgood)も導入する。
Conditional Entropy Bottleneckの概念を活用することで、PTGOODは、最終的なデプロイメントポリシの改善に関する新たな情報を提供するために、オンラインで収集されたデータを推奨する。
このようにして、限られた相互作用予算が効果的に使用される。
PTGOODは、オンラインの微調整中にエージェントリターンを大幅に改善し、Walkerの10kオンラインステップとHumanoidのような複雑な制御タスクで50kオンラインステップで最適なポリシーを見出す。
また,PTGOODは,多くのベースラインが複数の環境に出現する最適政策収束を回避する。
関連論文リスト
- Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Behavior Proximal Policy Optimization [14.701955559885615]
オフライン強化学習(英語: offline reinforcement learning, RL)は、既存の非政治アクター批判的手法が不十分な課題である。
オンラインのオンライン政治アルゴリズムは、自然にオフラインのRLを解くことができる。
本稿では,制約や正規化を伴わずにオフラインのRLを解消する振舞いプロキシポリシー最適化(BPPO)を提案する。
論文 参考訳(メタデータ) (2023-02-22T11:49:12Z) - Offline RL Policies Should be Trained to be Adaptive [89.8580376798065]
ベイズ的意味において、オフラインRLで最適に振る舞うには暗黙のPOMDPを解く必要があることを示す。
結果として、オフラインRLの最適ポリシーは、現在の状態だけでなく、評価中にこれまで見られたすべての遷移に依存して適応されなければならない。
本稿では、この最適適応ポリシーを近似するモデルフリーアルゴリズムを提案し、オフラインRLベンチマークにおける適応ポリシーの学習の有効性を実証する。
論文 参考訳(メタデータ) (2022-07-05T17:58:33Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。