論文の概要: Collaborative World Models: An Online-Offline Transfer RL Approach
- arxiv url: http://arxiv.org/abs/2305.15260v1
- Date: Wed, 24 May 2023 15:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:39:43.838422
- Title: Collaborative World Models: An Online-Offline Transfer RL Approach
- Title(参考訳): 協調的世界モデル:オンラインOffline Transfer RLアプローチ
- Authors: Qi Wang, Junming Yang, Yunbo Wang, Xin Jin, Wenjun Zeng, Xiaokang Yang
- Abstract要約: オフライン環境下での視覚的RLの性能を向上させるために,コラボレーティブ・ワールド・モデル(CoWorld)と呼ばれる伝達学習手法を提案する。
実験によると、CoWorldはDeepMind ControlとMeta-Worldのオフライン視覚制御タスクにおいて、既存のメソッドよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 112.60772190302507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training visual reinforcement learning (RL) models in offline datasets is
challenging due to overfitting issues in representation learning and
overestimation problems in value function. In this paper, we propose a transfer
learning method called Collaborative World Models (CoWorld) to improve the
performance of visual RL under offline conditions. The core idea is to use an
easy-to-interact, off-the-shelf simulator to train an auxiliary RL model as the
online ``test bed'' for the offline policy learned in the target domain, which
provides a flexible constraint for the value function -- Intuitively, we want
to mitigate the overestimation problem of value functions outside the offline
data distribution without impeding the exploration of actions with potential
advantages. Specifically, CoWorld performs domain-collaborative representation
learning to bridge the gap between online and offline hidden state
distributions. Furthermore, it performs domain-collaborative behavior learning
that enables the source RL agent to provide target-aware value estimation,
allowing for effective offline policy regularization. Experiments show that
CoWorld significantly outperforms existing methods in offline visual control
tasks in DeepMind Control and Meta-World.
- Abstract(参考訳): オフラインデータセットにおける視覚強化学習(RL)モデルの訓練は、表現学習における問題と値関数における過大評価の問題により困難である。
本稿では,オフライン環境における視覚rlの性能向上を目的とした,コラボレーティブ・ワールド・モデル(coworld)と呼ばれるトランスファー学習手法を提案する。
原文(投稿日:2019/09/17)へのリンク ターゲットドメインで学んだオフラインポリシーに対して、オンラインの‘テストベッド’として補助的なRLモデルをトレーニングするために、簡単に相互作用可能なオフザシェルフシミュレータを使用することが中心的な考え方だ。
具体的には、coworldはドメインコラボレーティブな表現学習を行い、オンラインとオフラインの隠れた状態分散の間のギャップを埋める。
さらに、ソースRLエージェントがターゲット認識値の推定を可能とし、効果的なオフラインポリシー正則化を可能にするドメイン協調行動学習を行う。
実験によると、coworldはdeepmind controlとmeta-worldのオフラインビジュアルコントロールタスクで既存のメソッドを大幅に上回っている。
関連論文リスト
- Federated Ensemble-Directed Offline Reinforcement Learning [9.850879248308457]
We developed the Federated Ensemble-Directed Offline Reinforcement Learning Algorithm (FEDORA)
FEDORAは、組み合わせたデータプールよりもオフラインRLなど、他のアプローチよりも大幅に優れています。
実世界におけるFEDORAの性能をモバイルロボットで実証する。
論文 参考訳(メタデータ) (2023-05-04T18:25:34Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。