論文の概要: UniZero: Generalized and Efficient Planning with Scalable Latent World Models
- arxiv url: http://arxiv.org/abs/2406.10667v2
- Date: Fri, 03 Jan 2025 08:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:09:25.518908
- Title: UniZero: Generalized and Efficient Planning with Scalable Latent World Models
- Title(参考訳): UniZero: スケーラブルな潜在世界モデルによる汎用的で効率的な計画
- Authors: Yuan Pu, Yazhe Niu, Zhenjie Yang, Jiyuan Ren, Hongsheng Li, Yu Liu,
- Abstract要約: UniZeroは、モジュールトランスフォーマーベースの世界モデルを使用して、共有潜在空間を効果的に学習する新しいアプローチである。
長期メモリを必要とするベンチマークにおいて、UniZeroが既存のベースラインを大幅に上回ることを示す。
Atari や DMControl のような標準のシングルタスク RL 設定では、UniZero は現在の最先端メソッドのパフォーマンスを上回ります。
- 参考スコア(独自算出の注目度): 29.648382211926364
- License:
- Abstract: Learning predictive world models is crucial for enhancing the planning capabilities of reinforcement learning (RL) agents. Recently, MuZero-style algorithms, leveraging the value equivalence principle and Monte Carlo Tree Search (MCTS), have achieved superhuman performance in various domains. However, these methods struggle to scale in heterogeneous scenarios with diverse dependencies and task variability. To overcome these limitations, we introduce UniZero, a novel approach that employs a modular transformer-based world model to effectively learn a shared latent space. By concurrently predicting latent dynamics and decision-oriented quantities conditioned on the learned latent history, UniZero enables joint optimization of the long-horizon world model and policy, facilitating broader and more efficient planning in the latent space. We show that UniZero significantly outperforms existing baselines in benchmarks that require long-term memory. Additionally, UniZero demonstrates superior scalability in multitask learning experiments conducted on Atari benchmarks. In standard single-task RL settings, such as Atari and DMControl, UniZero matches or even surpasses the performance of current state-of-the-art methods. Finally, extensive ablation studies and visual analyses validate the effectiveness and scalability of UniZero's design choices. Our code is available at \textcolor{magenta}{https://github.com/opendilab/LightZero}.
- Abstract(参考訳): 予測的世界モデル学習は、強化学習(RL)エージェントの計画能力向上に不可欠である。
近年,価値等価原理とモンテカルロ木探索(MCTS)を利用したMuZero型アルゴリズムが,様々な領域で超人的性能を実現している。
しかし、これらの手法は、多種多様な依存関係とタスク変数を持つ異種シナリオでスケールするのに苦労する。
この制限を克服するために,モジュラートランスフォーマーをベースとした世界モデルを用いた新しい手法であるUniZeroを導入し,共有潜在空間を効果的に学習する。
UniZeroは、学習した潜時履歴に基づいて、潜時ダイナミクスと意思決定指向の量とを同時に予測することにより、長距離世界モデルとポリシーの協調最適化を可能にし、潜時空間におけるより広範囲で効率的な計画を容易にする。
長期メモリを必要とするベンチマークにおいて、UniZeroが既存のベースラインを大幅に上回ることを示す。
さらに、UniZeroはAtariベンチマークで実施されたマルチタスク学習実験において優れたスケーラビリティを示している。
Atari や DMControl のような標準のシングルタスク RL 設定では、UniZero は現在の最先端メソッドのパフォーマンスを上回ります。
最後に,UniZeroの設計選択の有効性と拡張性を検証する。
私たちのコードは、textcolor{magenta}{https://github.com/opendilab/LightZero}で利用可能です。
関連論文リスト
- Vintix: Action Model via In-Context Reinforcement Learning [72.65703565352769]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。
ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-01-31T18:57:08Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。
長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。
このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-10-11T15:10:40Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - LightZero: A Unified Benchmark for Monte Carlo Tree Search in General
Sequential Decision Scenarios [32.83545787965431]
学習モデルを用いた木探索計画能力に基づくエージェントの構築は、GoやAtariといった古典的な意思決定問題において大きな成功を収めている。
モンテカルロ木探索(MCTS)ベースのアルゴリズムを様々な現実世界のアプリケーションに拡張することは困難または不可能であるとみなされている。
本稿では,MCTS/MuZeroを一般的な逐次決定シナリオに展開するための最初の統一ベンチマークであるLightZeroを紹介する。
論文 参考訳(メタデータ) (2023-10-12T14:18:09Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Equivariant MuZero [14.027651496499882]
本研究では,環境の対称性を世界モデルアーキテクチャに明示的に組み込むことで,MuZeroのデータ効率と一般化能力の向上を提案する。
我々は、MuZeroが使用するニューラルネットワークが環境に作用する特定の対称性群に同値である限り、MuZeroの行動選択アルゴリズムの全体性も同値であることを示す。
論文 参考訳(メタデータ) (2023-02-09T17:46:29Z) - Efficient Offline Policy Optimization with a Learned Model [83.64779942889916]
MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。
MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。
本稿では,オフライン設定下では MuZero Unplugged がうまく動作しないという仮説について検討する。
論文 参考訳(メタデータ) (2022-10-12T07:41:04Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Transformers are Sample Efficient World Models [1.9444242128493845]
我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。
Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
論文 参考訳(メタデータ) (2022-09-01T17:03:07Z) - Meta-Learned Attribute Self-Gating for Continual Generalized Zero-Shot
Learning [82.07273754143547]
トレーニング中に見られないカテゴリにモデルを一般化するためのメタ連続ゼロショット学習(MCZSL)アプローチを提案する。
属性の自己決定とスケールしたクラス正規化をメタラーニングベースのトレーニングと組み合わせることで、最先端の成果を上回ることができるのです。
論文 参考訳(メタデータ) (2021-02-23T18:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。