論文の概要: Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.17966v2
- Date: Mon, 30 Oct 2023 05:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 19:13:15.695719
- Title: Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning
- Title(参考訳): 一度列車で家族を得る:オフラインからオンラインへの強化学習のための状態適応バランス
- Authors: Shenzhi Wang, Qisen Yang, Jiawei Gao, Matthieu Gaetan Lin, Hao Chen,
Liwei Wu, Ning Jia, Shiji Song, Gao Huang
- Abstract要約: Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
- 参考スコア(独自算出の注目度): 71.02384943570372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline-to-online reinforcement learning (RL) is a training paradigm that
combines pre-training on a pre-collected dataset with fine-tuning in an online
environment. However, the incorporation of online fine-tuning can intensify the
well-known distributional shift problem. Existing solutions tackle this problem
by imposing a policy constraint on the policy improvement objective in both
offline and online learning. They typically advocate a single balance between
policy improvement and constraints across diverse data collections. This
one-size-fits-all manner may not optimally leverage each collected sample due
to the significant variation in data quality across different states. To this
end, we introduce Family Offline-to-Online RL (FamO2O), a simple yet effective
framework that empowers existing algorithms to determine state-adaptive
improvement-constraint balances. FamO2O utilizes a universal model to train a
family of policies with different improvement/constraint intensities, and a
balance model to select a suitable policy for each state. Theoretically, we
prove that state-adaptive balances are necessary for achieving a higher policy
performance upper bound. Empirically, extensive experiments show that FamO2O
offers a statistically significant improvement over various existing methods,
achieving state-of-the-art performance on the D4RL benchmark. Codes are
available at https://github.com/LeapLabTHU/FamO2O.
- Abstract(参考訳): オフライン-オンライン強化学習(rl)は、事前収集されたデータセットの事前トレーニングと、オンライン環境での微調整を組み合わせたトレーニングパラダイムである。
しかし、オンラインファインチューニングの導入は、よく知られた分散シフト問題を強化することができる。
既存のソリューションは、オフラインとオンライン両方の学習において、政策改善目標にポリシー制約を課すことで、この問題に対処する。
彼らは通常、ポリシーの改善とさまざまなデータコレクション間の制約の間の単一のバランスを提唱する。
この1サイズフィットの方法は、異なる状態におけるデータ品質の著しい変動のため、各サンプルを最適に活用できない。
この目的のために、既存のアルゴリズムが状態適応型改善-制約バランスを決定することを可能にする、シンプルで効果的なフレームワークであるfamo2o(family offline-to-online rl)を紹介します。
FamO2Oは、異なる改善/制約強度のポリシー群を訓練するための普遍モデルと、各州に適したポリシーを選択するためのバランスモデルを利用する。
理論的には、より高いポリシーパフォーマンスを達成するためには、状態適応バランスが必要であることを証明します。
実証的な実験により、FamO2Oは様々な既存手法に対して統計的に有意な改善をもたらし、D4RLベンチマークで最先端の性能を達成した。
コードはhttps://github.com/LeapLabTHU/FamO2Oで入手できる。
関連論文リスト
- Towards Robust Offline-to-Online Reinforcement Learning via Uncertainty and Smoothness [11.241036026084222]
offline-to-online (O2O) RLは、限られたオンラインインタラクション内でオフライントレーニングエージェントを改善するためのパラダイムを提供する。
ほとんどのオフラインRLアルゴリズムは性能低下に悩まされ、O2O適応の安定なポリシー改善を達成できなかった。
本稿では,不確実性と滑らか性によるオフラインポリシーの強化を目的としたRobost Offline-to-Online (RO2O)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-29T04:42:50Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and
Stable Online Fine-Tuning [7.462336024223669]
主な課題は、データに存在しないアクションに対する過大評価バイアスを克服することである。
このバイアスを減らすための簡単な方法は、行動的クローニング(BC)を通じてポリシー制約を導入することである。
私たちは、BCコンポーネントの影響を減らしながら、ポリシーをオフラインでトレーニングし続けることで、洗練されたポリシーを作成できることを実証します。
論文 参考訳(メタデータ) (2022-11-21T19:10:27Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。