論文の概要: Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.15260v4
- Date: Tue, 29 Oct 2024 09:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 20:19:49.660653
- Title: Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning
- Title(参考訳): オフラインRLをオンライン化する - オフラインのビジュアル強化学習のための協調的世界モデル
- Authors: Qi Wang, Junming Yang, Yunbo Wang, Xin Jin, Wenjun Zeng, Xiaokang Yang,
- Abstract要約: 本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
- 参考スコア(独自算出の注目度): 93.99377042564919
- License:
- Abstract: Training offline RL models using visual inputs poses two significant challenges, i.e., the overfitting problem in representation learning and the overestimation bias for expected future rewards. Recent work has attempted to alleviate the overestimation bias by encouraging conservative behaviors. This paper, in contrast, tries to build more flexible constraints for value estimation without impeding the exploration of potential advantages. The key idea is to leverage off-the-shelf RL simulators, which can be easily interacted with in an online manner, as the "test bed" for offline policies. To enable effective online-to-offline knowledge transfer, we introduce CoWorld, a model-based RL approach that mitigates cross-domain discrepancies in state and reward spaces. Experimental results demonstrate the effectiveness of CoWorld, outperforming existing RL approaches by large margins.
- Abstract(参考訳): 視覚的入力を用いたオフラインRLモデルのトレーニングは、表現学習における過度に適合する問題と、期待される将来的な報酬に対する過大評価バイアスという、2つの重要な課題をもたらす。
最近の研究は、保守的な行動を促すことによって過大評価バイアスを緩和しようと試みている。
これとは対照的に,本論文では,潜在的利点の探索を妨げることなく,より柔軟な値推定の制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシーの"テストベッド"として、オンラインで簡単に操作できる、市販のRLシミュレータを活用することだ。
オンラインからオフラインへの効果的な知識伝達を実現するために,状態と報酬空間におけるドメイン間の相違を緩和するモデルベースのRLアプローチであるCoWorldを導入する。
実験により,CoWorldの有効性が示され,既存のRLアプローチを大きなマージンで上回った。
関連論文リスト
- Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。
U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。
U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-08-27T05:23:45Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Survival Instinct in Offline Reinforcement Learning [28.319886852612672]
報酬ラベルをトレーニングしても、オフラインのRLは最適で安全なポリシを生成することができる。
この驚くべき性質は、オフラインRLアルゴリズムにおける悲観的概念と、一般的なデータ収集手法におけるある種の暗黙的偏見の相互作用に起因することを実証する。
我々の経験的および理論的結果は、エージェントが不完全な報酬を伴う望ましい行動を学ぶために、不完全なデータカバレッジを意図的にバイアスするRLの新しいパラダイムを示唆している。
論文 参考訳(メタデータ) (2023-06-05T22:15:39Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online
Reinforcement Learning [7.786094194874359]
本稿では,この問題に対する肯定的な回答を提供するために,Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning (H2O)フレームワークを提案する。
H2Oは動的に認識されたポリシー評価スキームを導入し、大きなダイナミックスギャップを持つシミュレーション状態-作用対上でQ関数学習を適応的にペナルティ化する。
我々は、他のドメイン間のオンラインおよびオフラインRLアルゴリズムに対してH2Oの優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-27T17:18:11Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Offline Reinforcement Learning Hands-On [60.36729294485601]
オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。
オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
論文 参考訳(メタデータ) (2020-11-29T14:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。