論文の概要: Leveraging Offline Data in Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.04974v1
- Date: Wed, 9 Nov 2022 15:39:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:52:56.791100
- Title: Leveraging Offline Data in Online Reinforcement Learning
- Title(参考訳): オンライン強化学習におけるオフラインデータ活用
- Authors: Andrew Wagenmaker, Aldo Pacchiano
- Abstract要約: 強化学習(RL)コミュニティには,オンラインRLとオフラインRLという,2つの中心的なパラダイムが出現している。
オンラインRL設定では、エージェントは環境に関する事前の知識を持っておらず、$epsilon$-Optimal Policyを見つけるためには、それと対話する必要がある。
オフラインのRL設定では、学習者はそこから学ぶために固定されたデータセットにアクセスするが、それ以外は環境との相互作用ができず、このオフラインデータから可能な限りのポリシーを取得する必要がある。
- 参考スコア(独自算出の注目度): 24.18369781999988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two central paradigms have emerged in the reinforcement learning (RL)
community: online RL and offline RL. In the online RL setting, the agent has no
prior knowledge of the environment, and must interact with it in order to find
an $\epsilon$-optimal policy. In the offline RL setting, the learner instead
has access to a fixed dataset to learn from, but is unable to otherwise
interact with the environment, and must obtain the best policy it can from this
offline data. Practical scenarios often motivate an intermediate setting: if we
have some set of offline data and, in addition, may also interact with the
environment, how can we best use the offline data to minimize the number of
online interactions necessary to learn an $\epsilon$-optimal policy?
In this work, we consider this setting, which we call the \textsf{FineTuneRL}
setting, for MDPs with linear structure. We characterize the necessary number
of online samples needed in this setting given access to some offline dataset,
and develop an algorithm, \textsc{FTPedel}, which is provably optimal. We show
through an explicit example that combining offline data with online
interactions can lead to a provable improvement over either purely offline or
purely online RL. Finally, our results illustrate the distinction between
\emph{verifiable} learning, the typical setting considered in online RL, and
\emph{unverifiable} learning, the setting often considered in offline RL, and
show that there is a formal separation between these regimes.
- Abstract(参考訳): 強化学習(RL)コミュニティには,オンラインRLとオフラインRLという,2つの中心的なパラダイムが出現している。
オンラインRL設定では、エージェントは環境に関する事前の知識を持っておらず、$\epsilon$-Optimal Policyを見つけるためにそれと対話する必要がある。
オフラインのrl設定では、学習者は、学習する固定データセットにアクセスするが、それ以外は環境とのインタラクションができず、オフラインデータから可能な最高のポリシーを取得する必要がある。
もしいくつかのオフラインデータがあり、環境と相互作用する可能性があるなら、オフラインデータを使って$\epsilon$-Optimalポリシーを学ぶのに必要なオンラインインタラクションの数を最小化できるだろうか?
本研究では、線形構造を持つmdpに対して、この設定を \textsf{finetunerl} 設定と呼ぶ。
オフラインデータセットへのアクセスによって、この設定に必要なオンラインサンプルの数を特徴付け、アルゴリズムである \textsc{ftpedel} を開発する。
オフラインデータとオンラインインタラクションを組み合わせることで、純粋にオフラインまたは純粋にオンラインRLよりも証明可能な改善がもたらされる、という明確な例を示す。
最後に、オンラインRLにおける典型的な設定である「emph{verible}学習」と、オフラインRLにおいてしばしば考慮される「emph{unverible}学習」の区別を示し、これらの制度間に正式な分離が存在することを示す。
関連論文リスト
- Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Offline RL With Resource Constrained Online Deployment [13.61540280864938]
オフライン強化学習は、環境へのリアルタイムアクセスが高価または不可能なシナリオでポリシーをトレーニングするために使用される。
本研究は,新たな資源制約問題設定を導入し,定式化する。
完全なオフラインデータセットを使用してトレーニングされたポリシと、限定された機能を使用してトレーニングされたポリシとの間のパフォーマンスギャップを強調します。
論文 参考訳(メタデータ) (2021-10-07T03:43:09Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。