論文の概要: Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining
- arxiv url: http://arxiv.org/abs/2410.00564v2
- Date: Tue, 8 Oct 2024 13:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:47:16.968421
- Title: Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining
- Title(参考訳): 共同最適化ワールド・アクション・モデル事前学習によるオフラインモデルベースRLのスケーリング
- Authors: Jie Cheng, Ruixi Qiao, Gang Xiong, Qinghai Miao, Yingwei Ma, Binhua Li, Yongbin Li, Yisheng Lv,
- Abstract要約: 我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
- 参考スコア(独自算出の注目度): 49.730897226510095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A significant aspiration of offline reinforcement learning (RL) is to develop a generalist agent with high capabilities from large and heterogeneous datasets. However, prior approaches that scale offline RL either rely heavily on expert trajectories or struggle to generalize to diverse unseen tasks. Inspired by the excellent generalization of world model in conditional video generation, we explore the potential of image observation-based world model for scaling offline RL and enhancing generalization on novel tasks. In this paper, we introduce JOWA: Jointly-Optimized World-Action model, an offline model-based RL agent pretrained on multiple Atari games with 6 billion tokens data to learn general-purpose representation and decision-making ability. Our method jointly optimizes a world-action model through a shared transformer backbone, which stabilize temporal difference learning with large models during pretraining. Moreover, we propose a provably efficient and parallelizable planning algorithm to compensate for the Q-value estimation error and thus search out better policies. Experimental results indicate that our largest agent, with 150 million parameters, achieves 78.9% human-level performance on pretrained games using only 10% subsampled offline data, outperforming existing state-of-the-art large-scale offline RL baselines by 31.6% on averange. Furthermore, JOWA scales favorably with model capacity and can sample-efficiently transfer to novel games using only 5k offline fine-tuning data (approximately 4 trajectories) per game, demonstrating superior generalization. We will release codes and model weights at https://github.com/CJReinforce/JOWA.
- Abstract(参考訳): オフライン強化学習(RL)の大きな願望は、大規模で不均一なデータセットから高機能なジェネラリストエージェントを開発することである。
しかし、オフラインRLをスケールする以前のアプローチは、専門家の軌跡に大きく依存するか、さまざまな目に見えないタスクに一般化するのに苦労する。
条件付きビデオ生成における世界モデルの優れた一般化に触発されて、オフラインRLのスケーリングと新規タスクの一般化の促進を目的とした、画像観測に基づく世界モデルの可能性を探る。
本稿では,60億のトークンデータを持つ複数Atariゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Optimized World-Action Modelを紹介し,汎用表現と意思決定能力について述べる。
本手法は,事前学習中の大モデルによる時間差学習を安定化させる共用トランスフォーマーバックボーンを用いて,ワールドアクションモデルを協調的に最適化する。
さらに、Q値推定誤差を補償し、より良いポリシーを探索する、効率よく並列化可能な計画アルゴリズムを提案する。
実験の結果、我々の最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上で78.9%の人間レベルのパフォーマンスを達成し、既存の最先端の大規模オフラインRLベースラインを31.6%上回る結果となった。
さらに、JOWAはモデルキャパシティに好適にスケールし、ゲーム毎に5kのオフライン微調整データ(約4トラジェクトリ)しか使用せず、より優れた一般化を実現している。
コードとモデルの重み付けはhttps://github.com/CJReinforce/JOWA.orgで公開します。
関連論文リスト
- Locality Sensitive Sparse Encoding for Learning World Models Online [29.124825481348285]
Follow-The-Leader世界モデルはモデルに基づく強化学習に望ましい。
FTLモデルは、FTLを達成するために、すべての相互作用ステップで蓄積されたデータを再学習する必要がある。
我々の世界モデルは、リプレイで訓練されたディープワールドモデルの性能に匹敵するか、適合するかのどちらかで、1パスの軌跡データを使ってオンラインで学習した。
論文 参考訳(メタデータ) (2024-01-23T19:00:02Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Bootstrapped Transformer for Offline Reinforcement Learning [31.43012728924881]
オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:57:47Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。