Fugu-MT 論文翻訳(概要): UniZero: Generalized and Efficient Planning with Scalable Latent World Models

論文の概要: UniZero: Generalized and Efficient Planning with Scalable Latent World Models

arxiv url: http://arxiv.org/abs/2406.10667v1
Date: Sat, 15 Jun 2024 15:24:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 23:23:59.266287
Title: UniZero: Generalized and Efficient Planning with Scalable Latent World Models
Title（参考訳）: UniZero: スケーラブルな潜在世界モデルによる汎用的で効率的な計画
Authors: Yuan Pu, Yazhe Niu, Jiyuan Ren, Zhenjie Yang, Hongsheng Li, Yu Liu,
Abstract要約: textitUniZeroは、トランスフォーマーベースの潜伏世界モデルを用いて、潜伏状態を暗黙の潜伏歴史からテクティディケンタングする新しいアプローチである。我々は,UniZeroがシングルフレーム入力であっても,Atari 100kベンチマーク上での MuZero スタイルのアルゴリズムの性能と一致または上回っていることを示す。
参考スコア（独自算出の注目度）: 29.648382211926364
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning predictive world models is essential for enhancing the planning capabilities of reinforcement learning agents. Notably, the MuZero-style algorithms, based on the value equivalence principle and Monte Carlo Tree Search (MCTS), have achieved superhuman performance in various domains. However, in environments that require capturing long-term dependencies, MuZero's performance deteriorates rapidly. We identify that this is partially due to the \textit{entanglement} of latent representations with historical information, which results in incompatibility with the auxiliary self-supervised state regularization. To overcome this limitation, we present \textit{UniZero}, a novel approach that \textit{disentangles} latent states from implicit latent history using a transformer-based latent world model. By concurrently predicting latent dynamics and decision-oriented quantities conditioned on the learned latent history, UniZero enables joint optimization of the long-horizon world model and policy, facilitating broader and more efficient planning in latent space. We demonstrate that UniZero, even with single-frame inputs, matches or surpasses the performance of MuZero-style algorithms on the Atari 100k benchmark. Furthermore, it significantly outperforms prior baselines in benchmarks that require long-term memory. Lastly, we validate the effectiveness and scalability of our design choices through extensive ablation studies, visual analyses, and multi-task learning results. The code is available at \textcolor{magenta}{https://github.com/opendilab/LightZero}.
Abstract（参考訳）: 予測的世界モデル学習は,強化学習エージェントの計画能力向上に不可欠である。特に,値等価原理とモンテカルロ木探索(MCTS)に基づくMuZero型アルゴリズムは,様々な領域で超人的性能を実現している。しかし、長期依存関係の取得を必要とする環境では、MuZeroのパフォーマンスは急速に低下する。これは部分的には、過去の情報を含む潜在表現の「textit{entanglement}」によるものであり、補助的な自己監督状態正規化とは相容れないことが原因である。この制限を克服するために、変換器をベースとした潜伏世界モデルを用いて、暗黙の潜伏歴史から潜伏状態を示す新しいアプローチである \textit{UniZero} を提示する。 UniZeroは、学習した潜時履歴に規定された潜時ダイナミクスと意思決定指向量とを同時に予測することにより、長距離世界モデルとポリシーの協調最適化を可能にし、潜時空間におけるより広範囲で効率的な計画を容易にする。我々は,UniZeroがシングルフレーム入力であっても,Atari 100kベンチマーク上での MuZero スタイルのアルゴリズムの性能と一致または上回っていることを示す。さらに、長期メモリを必要とするベンチマークにおいて、以前のベースラインを大幅に上回る。最後に、広範囲なアブレーション研究、視覚分析、マルチタスク学習の結果を通じて、設計選択の有効性とスケーラビリティを検証する。コードは \textcolor{magenta}{https://github.com/opendilab/LightZero} で公開されている。

関連論文リスト

R-Zero: Self-Evolving Reasoning LLM from Zero Data [56.74402018426378]
自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。 R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
論文参考訳（メタデータ） (2025-08-07T03:38:16Z)
World Model-Based Learning for Long-Term Age of Information Minimization in Vehicular Networks [53.98633183204453]
本稿では,車載ネットワークにおけるパケット完全性認識情報(CAoI)の年齢を最小化するために,新しい世界モデルに基づく学習フレームワークを提案する。 mmWave V2X環境の動的モデルを共同で学習し、リンクスケジューリングの方法を学ぶための軌跡を想像するために使用する世界モデルフレームワークを提案する。特に、長期的な政策は環境相互作用の代わりに、異なる想像軌道で学習される。
論文参考訳（メタデータ） (2025-05-03T06:23:18Z)
Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文参考訳（メタデータ） (2025-04-17T17:49:40Z)
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文参考訳（メタデータ） (2024-11-23T06:36:16Z)
UmambaTSF: A U-shaped Multi-Scale Long-Term Time Series Forecasting Method Using Mamba [7.594115034632109]
本稿では,新しい時系列予測フレームワークであるUmambaTSFを提案する。 U字型エンコーダ・デコーダ多層パーセプトロン(MLP)のマルチスケール特徴抽出機能とMambaのロングシーケンス表現を統合する。 UmambaTSFは、広く使用されているベンチマークデータセットで最先端のパフォーマンスと優れた汎用性を達成する。
論文参考訳（メタデータ） (2024-10-15T04:56:43Z)
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文参考訳（メタデータ） (2024-10-11T15:10:40Z)
Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文参考訳（メタデータ） (2024-10-01T10:25:03Z)
Mamba or Transformer for Time Series Forecasting? Mixture of Universals (MoU) Is All You Need [28.301119776877822]
時系列予測には、正確な予測のために短期と長期の依存関係のバランスが必要である。変換器は長期依存のモデリングに優れているが、2次計算コストで批判されている。 Mambaは、ほぼ直線的な代替手段を提供するが、潜在的な情報損失のため、時系列の長期予測では効果が低いと報告されている。
論文参考訳（メタデータ） (2024-08-28T17:59:27Z)
MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-08-15T02:29:00Z)
DyG-Mamba: Continuous State Space Modeling on Dynamic Graphs [59.434893231950205]
動的グラフ学習は、現実世界のシステムにおける進化の法則を明らかにすることを目的としている。動的グラフ学習のための新しい連続状態空間モデルDyG-Mambaを提案する。我々はDyG-Mambaがほとんどのデータセットで最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2024-08-13T15:21:46Z)
ZeroG: Investigating Cross-dataset Zero-shot Transferability in Graphs [36.749959232724514]
ZeroGは、クロスデータセットの一般化を可能にするために設計された新しいフレームワークである。特徴の不整合、ラベル空間の整合、負の移動といった、固有の課題に対処する。本稿では,抽出したサブグラフの意味情報と構造情報を豊かにするための,プロンプトベースのサブグラフサンプリングモジュールを提案する。
論文参考訳（メタデータ） (2024-02-17T09:52:43Z)
A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。 GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-02T21:48:50Z)
LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios [32.83545787965431]
学習モデルを用いた木探索計画能力に基づくエージェントの構築は、GoやAtariといった古典的な意思決定問題において大きな成功を収めている。モンテカルロ木探索(MCTS)ベースのアルゴリズムを様々な現実世界のアプリケーションに拡張することは困難または不可能であるとみなされている。本稿では,MCTS/MuZeroを一般的な逐次決定シナリオに展開するための最初の統一ベンチマークであるLightZeroを紹介する。
論文参考訳（メタデータ） (2023-10-12T14:18:09Z)
OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文参考訳（メタデータ） (2023-06-20T03:02:14Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
Equivariant MuZero [14.027651496499882]
本研究では,環境の対称性を世界モデルアーキテクチャに明示的に組み込むことで,MuZeroのデータ効率と一般化能力の向上を提案する。我々は、MuZeroが使用するニューラルネットワークが環境に作用する特定の対称性群に同値である限り、MuZeroの行動選択アルゴリズムの全体性も同値であることを示す。
論文参考訳（メタデータ） (2023-02-09T17:46:29Z)
DITTO: Offline Imitation Learning with World Models [21.419536711242962]
DITTOは、これらの3つの問題すべてに対処するオフラインの模倣学習アルゴリズムである。標準的な強化学習アルゴリズムを用いて,この多段階潜時分岐を最適化する。我々の結果は、世界モデルの創造的利用が、シンプルで堅牢で、高度にパフォーマンスの高い政策学習フレームワークにどのように結びつくかを示している。
論文参考訳（メタデータ） (2023-02-06T19:41:18Z)
Efficient Offline Policy Optimization with a Learned Model [83.64779942889916]
MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。 MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。本稿では,オフライン設定下では MuZero Unplugged がうまく動作しないという仮説について検討する。
論文参考訳（メタデータ） (2022-10-12T07:41:04Z)
Transformers are Sample Efficient World Models [1.9444242128493845]
我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。 Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
論文参考訳（メタデータ） (2022-09-01T17:03:07Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
Meta-Learned Attribute Self-Gating for Continual Generalized Zero-Shot Learning [82.07273754143547]
トレーニング中に見られないカテゴリにモデルを一般化するためのメタ連続ゼロショット学習(MCZSL)アプローチを提案する。属性の自己決定とスケールしたクラス正規化をメタラーニングベースのトレーニングと組み合わせることで、最先端の成果を上回ることができるのです。
論文参考訳（メタデータ） (2021-02-23T18:36:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。