論文の概要: Hybrid RL: Using Both Offline and Online Data Can Make RL Efficient
- arxiv url: http://arxiv.org/abs/2210.06718v1
- Date: Thu, 13 Oct 2022 04:19:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:51:27.486195
- Title: Hybrid RL: Using Both Offline and Online Data Can Make RL Efficient
- Title(参考訳): ハイブリッドRL:オフラインデータとオンラインデータの両方を使ってRLを効率的にする
- Authors: Yuda Song, Yifei Zhou, Ayush Sekhari, J. Andrew Bagnell, Akshay
Krishnamurthy, Wen Sun
- Abstract要約: エージェントがオフラインのデータセットにアクセスでき、実世界のオンラインインタラクションを通じて経験を収集できるハイブリッド強化学習環境(Hybrid RL)を検討する。
従来のQラーニング/イテレーションアルゴリズムをハイブリッド環境に適用し,ハイブリッドQラーニングやHy-Qと呼ぶ。
ニューラルネットワーク関数近似を用いたHy-Qは、挑戦的なベンチマークにおいて、最先端のオンライン、オフライン、ハイブリッドRLベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 42.47810044648846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a hybrid reinforcement learning setting (Hybrid RL), in which an
agent has access to an offline dataset and the ability to collect experience
via real-world online interaction. The framework mitigates the challenges that
arise in both pure offline and online RL settings, allowing for the design of
simple and highly effective algorithms, in both theory and practice. We
demonstrate these advantages by adapting the classical Q learning/iteration
algorithm to the hybrid setting, which we call Hybrid Q-Learning or Hy-Q. In
our theoretical results, we prove that the algorithm is both computationally
and statistically efficient whenever the offline dataset supports a
high-quality policy and the environment has bounded bilinear rank. Notably, we
require no assumptions on the coverage provided by the initial distribution, in
contrast with guarantees for policy gradient/iteration methods. In our
experimental results, we show that Hy-Q with neural network function
approximation outperforms state-of-the-art online, offline, and hybrid RL
baselines on challenging benchmarks, including Montezuma's Revenge.
- Abstract(参考訳): エージェントがオフラインのデータセットにアクセスでき、実世界のオンラインインタラクションを通じて経験を収集できるハイブリッド強化学習環境(Hybrid RL)を検討する。
このフレームワークは、純粋なオフラインとオンラインのrl設定の両方で発生する課題を軽減し、理論と実践の両方において、シンプルで高効率なアルゴリズムの設計を可能にする。
従来のQラーニング/イテレーションアルゴリズムをハイブリッド環境に適用することにより,これらの利点を実証する。
理論的には,オフラインデータセットが高品質なポリシーをサポートし,環境が双線形なランクを持つ場合,アルゴリズムは計算的かつ統計的に効率的であることを示す。
特に、ポリシグラデーション/イテレーションメソッドの保証とは対照的に、初期分布によって提供されるカバレッジに関する仮定は不要です。
実験結果から,hy-qとニューラルネットワーク関数の近似は,モンテズマのリベンジを含む難解なベンチマークにおいて,最先端のオンライン,オフライン,ハイブリッドrlのベースラインよりも優れていることが示された。
関連論文リスト
- Contextualized Hybrid Ensemble Q-learning: Learning Fast with Control Priors [5.004576576202551]
適応型ハイブリッド強化学習アルゴリズムCHEQ(Contextualized Hybrid Ensemble Q-learning)を提案する。
CHEQは、(i)適応重みを文脈変数として扱う適応ハイブリッドRL問題の時間不変な定式化、(ii)批判アンサンブルのパラメトリック不確実性に基づく重み適応機構、(iii)データ効率RLのためのアンサンブルベースの加速度の3つの重要な要素を組み合わせる。
CHEQをカーレースタスクで評価することで、最先端の適応型ハイブリッドRL法よりもデータ効率、探索安全性、未知のシナリオへの転送性が大幅に向上する。
論文 参考訳(メタデータ) (2024-06-28T09:17:51Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - A Natural Extension To Online Algorithms For Hybrid RL With Limited Coverage [7.438754486636558]
私たちは、よく設計されたオンラインアルゴリズムがオフラインデータセットの"ギャップを埋める"必要があることを示しています。
オフラインデータセットが単一政治中心性を持っていなくても、ハイブリッドデータから同様の証明可能なゲインが得られることを示す。
論文 参考訳(メタデータ) (2024-03-07T19:39:47Z) - Harnessing Density Ratios for Online Reinforcement Learning [35.268369362811676]
密度比に基づくアルゴリズムにはオンラインのアルゴリズムがある。
新しいアルゴリズム (GLOW) は, サンプル効率の良いオンライン探索を行うために, 密度比の実現可能性と値関数の実現可能性を利用する。
論文 参考訳(メタデータ) (2024-01-18T02:21:06Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online
Reinforcement Learning [7.786094194874359]
本稿では,この問題に対する肯定的な回答を提供するために,Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning (H2O)フレームワークを提案する。
H2Oは動的に認識されたポリシー評価スキームを導入し、大きなダイナミックスギャップを持つシミュレーション状態-作用対上でQ関数学習を適応的にペナルティ化する。
我々は、他のドメイン間のオンラインおよびオフラインRLアルゴリズムに対してH2Oの優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-27T17:18:11Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。