論文の概要: Training Agents Inside of Scalable World Models
- arxiv url: http://arxiv.org/abs/2509.24527v1
- Date: Mon, 29 Sep 2025 09:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.906351
- Title: Training Agents Inside of Scalable World Models
- Title(参考訳): スケーラブルな世界モデルの内部のトレーニングエージェント
- Authors: Danijar Hafner, Wilson Yan, Timothy Lillicrap,
- Abstract要約: 高速で正確な世界モデル内での強化学習により制御タスクの解法を学習する,スケーラブルなエージェントであるDreamer 4を紹介する。
複雑なビデオゲームMinecraftでは、世界モデルはオブジェクトの相互作用とゲーム力学を正確に予測し、以前の世界モデルよりも大きなマージンで上回る。
想像力で振舞うことを学ぶことで、Dreamer 4はマインクラフトで初めて、環境の相互作用なしにオフラインデータからダイヤモンドを入手したエージェントである。
- 参考スコア(独自算出の注目度): 15.869131616690042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models learn general knowledge from videos and simulate experience for training behaviors in imagination, offering a path towards intelligent agents. However, previous world models have been unable to accurately predict object interactions in complex environments. We introduce Dreamer 4, a scalable agent that learns to solve control tasks by reinforcement learning inside of a fast and accurate world model. In the complex video game Minecraft, the world model accurately predicts object interactions and game mechanics, outperforming previous world models by a large margin. The world model achieves real-time interactive inference on a single GPU through a shortcut forcing objective and an efficient transformer architecture. Moreover, the world model learns general action conditioning from only a small amount of data, allowing it to extract the majority of its knowledge from diverse unlabeled videos. We propose the challenge of obtaining diamonds in Minecraft from only offline data, aligning with practical applications such as robotics where learning from environment interaction can be unsafe and slow. This task requires choosing sequences of over 20,000 mouse and keyboard actions from raw pixels. By learning behaviors in imagination, Dreamer 4 is the first agent to obtain diamonds in Minecraft purely from offline data, without environment interaction. Our work provides a scalable recipe for imagination training, marking a step towards intelligent agents.
- Abstract(参考訳): 世界モデルは、ビデオから一般的な知識を学び、想像力のトレーニング行動の体験をシミュレートし、知的エージェントへの道筋を提供する。
しかし、従来の世界モデルは複雑な環境でのオブジェクトの相互作用を正確に予測できなかった。
高速で正確な世界モデル内での強化学習により制御タスクの解法を学習する,スケーラブルなエージェントであるDreamer 4を紹介する。
複雑なビデオゲームMinecraftでは、世界モデルはオブジェクトの相互作用とゲーム力学を正確に予測し、以前の世界モデルよりも大きなマージンで上回る。
ワールドモデルは、ショートカットの強制目標と効率的なトランスフォーマーアーキテクチャによって、1つのGPU上でリアルタイムにインタラクティブな推論を実現する。
さらに、世界モデルは少数のデータから一般の行動条件を学習し、多様な未ラベルビデオからその知識の大部分を抽出する。
本研究では,マインクラフトにおけるダイヤモンドのオフラインデータのみから取得し,環境相互作用からの学習が安全で遅いロボット工学などの実践的応用と整合する課題を提案する。
このタスクでは、生のピクセルから2万以上のマウスとキーボードのアクションのシーケンスを選択する必要がある。
想像力で振舞うことを学ぶことで、Dreamer 4はマインクラフトで初めて、環境の相互作用なしにオフラインデータからダイヤモンドを入手したエージェントである。
私たちの仕事は想像力トレーニングのためのスケーラブルなレシピを提供し、インテリジェントエージェントへの一歩をマークします。
関連論文リスト
- MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft [21.530000271719803]
我々はMinecraft上でリアルタイムインタラクティブな世界モデルであるMineWorldを提案する。
MineWorldはビジュアルアクション自動回帰トランスフォーマーによって駆動され、ペア化されたゲームシーンと対応するアクションを入力として取り込む。
本研究では,各フレームの空間的冗長トークンを同時に予測する並列デコーディングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-04-11T09:41:04Z) - Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination [25.62602420895531]
DreMaは、実世界の学習された明示的な表現とそのダイナミクスを使って、デジタル双生児を構築するための新しいアプローチである。
DreMaはタスク毎の1つの例から新しい物理タスクを学べることを示す。
論文 参考訳(メタデータ) (2024-12-19T15:38:15Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - DayDreamer: World Models for Physical Robot Learning [142.11031132529524]
深層強化学習はロボット学習の一般的なアプローチであるが、学習するには大量の試行錯誤が必要となる。
ロボット学習の多くの進歩はシミュレータに依存している。
本稿では,Dreamerを4つのロボットに適用し,シミュレータを使わずに,オンラインおよび実世界で直接学習する。
論文 参考訳(メタデータ) (2022-06-28T17:44:48Z) - A Differentiable Recipe for Learning Visual Non-Prehensile Planar
Manipulation [63.1610540170754]
視覚的非包括的平面操作の問題に焦点をあてる。
本稿では,ビデオデコードニューラルモデルと接触力学の先行情報を組み合わせた新しいアーキテクチャを提案する。
モジュラーで完全に差別化可能なアーキテクチャは、目に見えないオブジェクトやモーションの学習専用手法よりも優れていることが分かりました。
論文 参考訳(メタデータ) (2021-11-09T18:39:45Z) - Mastering Atari with Discrete World Models [61.7688353335468]
本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
論文 参考訳(メタデータ) (2020-10-05T17:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。