論文の概要: WorldDreamer: Towards General World Models for Video Generation via
Predicting Masked Tokens
- arxiv url: http://arxiv.org/abs/2401.09985v1
- Date: Thu, 18 Jan 2024 14:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:36:49.287028
- Title: WorldDreamer: Towards General World Models for Video Generation via
Predicting Masked Tokens
- Title(参考訳): WorldDreamer:Masked Tokensを予測してビデオ生成のための一般的な世界モデルを目指す
- Authors: Xiaofeng Wang, Zheng Zhu, Guan Huang, Boyuan Wang, Xinze Chen, Jiwen
Lu
- Abstract要約: 本稿では,世界物理学と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介する。
WorldDreamerは、教師なしのビジュアルシーケンスモデリングチャレンジとして世界モデリングをフレーム化している。
我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
- 参考スコア(独自算出の注目度): 75.02160668328425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models play a crucial role in understanding and predicting the dynamics
of the world, which is essential for video generation. However, existing world
models are confined to specific scenarios such as gaming or driving, limiting
their ability to capture the complexity of general world dynamic environments.
Therefore, we introduce WorldDreamer, a pioneering world model to foster a
comprehensive comprehension of general world physics and motions, which
significantly enhances the capabilities of video generation. Drawing
inspiration from the success of large language models, WorldDreamer frames
world modeling as an unsupervised visual sequence modeling challenge. This is
achieved by mapping visual inputs to discrete tokens and predicting the masked
ones. During this process, we incorporate multi-modal prompts to facilitate
interaction within the world model. Our experiments show that WorldDreamer
excels in generating videos across different scenarios, including natural
scenes and driving environments. WorldDreamer showcases versatility in
executing tasks such as text-to-video conversion, image-tovideo synthesis, and
video editing. These results underscore WorldDreamer's effectiveness in
capturing dynamic elements within diverse general world environments.
- Abstract(参考訳): 世界モデルは、ビデオ生成に不可欠な世界のダイナミクスを理解し予測する上で重要な役割を担っている。
しかし、既存の世界モデルはゲームや運転といった特定のシナリオに限定されており、一般的な世界の動的環境の複雑さを捉える能力を制限する。
そこで本研究では,一般的な世界物理と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介し,映像生成の能力を大幅に向上させる。
大規模な言語モデルの成功からインスピレーションを得たWorldDreamerは、世界モデリングを教師なしのビジュアルシーケンスモデリングの課題として捉えている。
これは、視覚的な入力を離散トークンにマッピングし、マスクされたトークンを予測することで達成される。
このプロセスの間、世界モデル内の相互作用を容易にするためにマルチモーダルプロンプトを組み込む。
我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
worlddreamerは、テキストからビデオへの変換、画像からビデオへの合成、ビデオ編集などのタスクの実行における汎用性を示している。
これらの結果は、様々な世界環境における動的要素の捕捉におけるWorldDreamerの有効性を裏付けるものである。
関連論文リスト
- Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。
ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。
ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (2024-02-27T02:05:29Z) - DriveDreamer: Towards Real-world-driven World Models for Autonomous
Driving [76.24483706445298]
実世界の運転シナリオから完全に派生した世界モデルであるDriveDreamerを紹介する。
最初の段階では、DriveDreamerは構造化されたトラフィックの制約を深く理解し、次の段階では将来の状態を予測できる。
DriveDreamerは、現実的で合理的な運転ポリシーの生成を可能にし、インタラクションと実用的なアプリケーションのための道を開く。
論文 参考訳(メタデータ) (2023-09-18T13:58:42Z) - Neural World Models for Computer Vision [2.741266294612776]
深層ニューラルネットワークによってパラメータ化された世界モデルと政策をトレーニングするためのフレームワークを提案する。
我々は、幾何学、意味論、動きといった重要なコンピュータビジョンの概念を活用して、複雑な都市運転シーンに世界モデルを拡張する。
都会の運転環境における静的シーン, 動的シーン, エゴビヘイビアを共同で予測できる。
論文 参考訳(メタデータ) (2023-06-15T14:58:21Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Mastering Atari with Discrete World Models [61.7688353335468]
本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
論文 参考訳(メタデータ) (2020-10-05T17:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。