論文の概要: Collaborative World Models: An Online-Offline Transfer RL Approach
- arxiv url: http://arxiv.org/abs/2305.15260v1
- Date: Wed, 24 May 2023 15:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:39:43.838422
- Title: Collaborative World Models: An Online-Offline Transfer RL Approach
- Title(参考訳): 協調的世界モデル:オンラインOffline Transfer RLアプローチ
- Authors: Qi Wang, Junming Yang, Yunbo Wang, Xin Jin, Wenjun Zeng, Xiaokang Yang
- Abstract要約: オフライン環境下での視覚的RLの性能を向上させるために,コラボレーティブ・ワールド・モデル(CoWorld)と呼ばれる伝達学習手法を提案する。
実験によると、CoWorldはDeepMind ControlとMeta-Worldのオフライン視覚制御タスクにおいて、既存のメソッドよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 112.60772190302507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training visual reinforcement learning (RL) models in offline datasets is
challenging due to overfitting issues in representation learning and
overestimation problems in value function. In this paper, we propose a transfer
learning method called Collaborative World Models (CoWorld) to improve the
performance of visual RL under offline conditions. The core idea is to use an
easy-to-interact, off-the-shelf simulator to train an auxiliary RL model as the
online ``test bed'' for the offline policy learned in the target domain, which
provides a flexible constraint for the value function -- Intuitively, we want
to mitigate the overestimation problem of value functions outside the offline
data distribution without impeding the exploration of actions with potential
advantages. Specifically, CoWorld performs domain-collaborative representation
learning to bridge the gap between online and offline hidden state
distributions. Furthermore, it performs domain-collaborative behavior learning
that enables the source RL agent to provide target-aware value estimation,
allowing for effective offline policy regularization. Experiments show that
CoWorld significantly outperforms existing methods in offline visual control
tasks in DeepMind Control and Meta-World.
- Abstract(参考訳): オフラインデータセットにおける視覚強化学習(RL)モデルの訓練は、表現学習における問題と値関数における過大評価の問題により困難である。
本稿では,オフライン環境における視覚rlの性能向上を目的とした,コラボレーティブ・ワールド・モデル(coworld)と呼ばれるトランスファー学習手法を提案する。
原文(投稿日:2019/09/17)へのリンク ターゲットドメインで学んだオフラインポリシーに対して、オンラインの‘テストベッド’として補助的なRLモデルをトレーニングするために、簡単に相互作用可能なオフザシェルフシミュレータを使用することが中心的な考え方だ。
具体的には、coworldはドメインコラボレーティブな表現学習を行い、オンラインとオフラインの隠れた状態分散の間のギャップを埋める。
さらに、ソースRLエージェントがターゲット認識値の推定を可能とし、効果的なオフラインポリシー正則化を可能にするドメイン協調行動学習を行う。
実験によると、coworldはdeepmind controlとmeta-worldのオフラインビジュアルコントロールタスクで既存のメソッドを大幅に上回っている。
関連論文リスト
- Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。
U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。
U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-08-27T05:23:45Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Survival Instinct in Offline Reinforcement Learning [28.319886852612672]
報酬ラベルをトレーニングしても、オフラインのRLは最適で安全なポリシを生成することができる。
この驚くべき性質は、オフラインRLアルゴリズムにおける悲観的概念と、一般的なデータ収集手法におけるある種の暗黙的偏見の相互作用に起因することを実証する。
我々の経験的および理論的結果は、エージェントが不完全な報酬を伴う望ましい行動を学ぶために、不完全なデータカバレッジを意図的にバイアスするRLの新しいパラダイムを示唆している。
論文 参考訳(メタデータ) (2023-06-05T22:15:39Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online
Reinforcement Learning [7.786094194874359]
本稿では,この問題に対する肯定的な回答を提供するために,Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning (H2O)フレームワークを提案する。
H2Oは動的に認識されたポリシー評価スキームを導入し、大きなダイナミックスギャップを持つシミュレーション状態-作用対上でQ関数学習を適応的にペナルティ化する。
我々は、他のドメイン間のオンラインおよびオフラインRLアルゴリズムに対してH2Oの優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-27T17:18:11Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Offline Reinforcement Learning Hands-On [60.36729294485601]
オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。
オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
論文 参考訳(メタデータ) (2020-11-29T14:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。