論文の概要: WorldDreamer: Towards General World Models for Video Generation via
Predicting Masked Tokens
- arxiv url: http://arxiv.org/abs/2401.09985v1
- Date: Thu, 18 Jan 2024 14:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:36:49.287028
- Title: WorldDreamer: Towards General World Models for Video Generation via
Predicting Masked Tokens
- Title(参考訳): WorldDreamer:Masked Tokensを予測してビデオ生成のための一般的な世界モデルを目指す
- Authors: Xiaofeng Wang, Zheng Zhu, Guan Huang, Boyuan Wang, Xinze Chen, Jiwen
Lu
- Abstract要約: 本稿では,世界物理学と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介する。
WorldDreamerは、教師なしのビジュアルシーケンスモデリングチャレンジとして世界モデリングをフレーム化している。
我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
- 参考スコア(独自算出の注目度): 75.02160668328425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models play a crucial role in understanding and predicting the dynamics
of the world, which is essential for video generation. However, existing world
models are confined to specific scenarios such as gaming or driving, limiting
their ability to capture the complexity of general world dynamic environments.
Therefore, we introduce WorldDreamer, a pioneering world model to foster a
comprehensive comprehension of general world physics and motions, which
significantly enhances the capabilities of video generation. Drawing
inspiration from the success of large language models, WorldDreamer frames
world modeling as an unsupervised visual sequence modeling challenge. This is
achieved by mapping visual inputs to discrete tokens and predicting the masked
ones. During this process, we incorporate multi-modal prompts to facilitate
interaction within the world model. Our experiments show that WorldDreamer
excels in generating videos across different scenarios, including natural
scenes and driving environments. WorldDreamer showcases versatility in
executing tasks such as text-to-video conversion, image-tovideo synthesis, and
video editing. These results underscore WorldDreamer's effectiveness in
capturing dynamic elements within diverse general world environments.
- Abstract(参考訳): 世界モデルは、ビデオ生成に不可欠な世界のダイナミクスを理解し予測する上で重要な役割を担っている。
しかし、既存の世界モデルはゲームや運転といった特定のシナリオに限定されており、一般的な世界の動的環境の複雑さを捉える能力を制限する。
そこで本研究では,一般的な世界物理と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介し,映像生成の能力を大幅に向上させる。
大規模な言語モデルの成功からインスピレーションを得たWorldDreamerは、世界モデリングを教師なしのビジュアルシーケンスモデリングの課題として捉えている。
これは、視覚的な入力を離散トークンにマッピングし、マスクされたトークンを予測することで達成される。
このプロセスの間、世界モデル内の相互作用を容易にするためにマルチモーダルプロンプトを組み込む。
我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
worlddreamerは、テキストからビデオへの変換、画像からビデオへの合成、ビデオ編集などのタスクの実行における汎用性を示している。
これらの結果は、様々な世界環境における動的要素の捕捉におけるWorldDreamerの有効性を裏付けるものである。
関連論文リスト
- DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - Pandora: Towards General World Model with Natural Language Actions and Video States [61.30962762314734]
Pandoraは、ビデオを生成して世界状態をシミュレートし、自由テキストアクションによるリアルタイム制御を可能にするハイブリッド自動回帰拡散モデルである。
Pandoraは、大規模な事前トレーニングと命令チューニングを通じて、ドメインの汎用性、ビデオの一貫性、制御性を実現する。
論文 参考訳(メタデータ) (2024-06-12T18:55:51Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - DriveDreamer: Towards Real-world-driven World Models for Autonomous
Driving [76.24483706445298]
実世界の運転シナリオから完全に派生した世界モデルであるDriveDreamerを紹介する。
最初の段階では、DriveDreamerは構造化されたトラフィックの制約を深く理解し、次の段階では将来の状態を予測できる。
DriveDreamerは、現実的で合理的な運転ポリシーの生成を可能にし、インタラクションと実用的なアプリケーションのための道を開く。
論文 参考訳(メタデータ) (2023-09-18T13:58:42Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。