Fugu-MT 論文翻訳(概要): WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens

論文の概要: WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens

arxiv url: http://arxiv.org/abs/2401.09985v1
Date: Thu, 18 Jan 2024 14:01:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 16:36:49.287028
Title: WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens
Title（参考訳）: WorldDreamer:Masked Tokensを予測してビデオ生成のための一般的な世界モデルを目指す
Authors: Xiaofeng Wang, Zheng Zhu, Guan Huang, Boyuan Wang, Xinze Chen, Jiwen Lu
Abstract要約: 本稿では,世界物理学と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介する。 WorldDreamerは、教師なしのビジュアルシーケンスモデリングチャレンジとして世界モデリングをフレーム化している。我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
参考スコア（独自算出の注目度）: 75.02160668328425
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: World models play a crucial role in understanding and predicting the dynamics of the world, which is essential for video generation. However, existing world models are confined to specific scenarios such as gaming or driving, limiting their ability to capture the complexity of general world dynamic environments. Therefore, we introduce WorldDreamer, a pioneering world model to foster a comprehensive comprehension of general world physics and motions, which significantly enhances the capabilities of video generation. Drawing inspiration from the success of large language models, WorldDreamer frames world modeling as an unsupervised visual sequence modeling challenge. This is achieved by mapping visual inputs to discrete tokens and predicting the masked ones. During this process, we incorporate multi-modal prompts to facilitate interaction within the world model. Our experiments show that WorldDreamer excels in generating videos across different scenarios, including natural scenes and driving environments. WorldDreamer showcases versatility in executing tasks such as text-to-video conversion, image-tovideo synthesis, and video editing. These results underscore WorldDreamer's effectiveness in capturing dynamic elements within diverse general world environments.
Abstract（参考訳）: 世界モデルは、ビデオ生成に不可欠な世界のダイナミクスを理解し予測する上で重要な役割を担っている。しかし、既存の世界モデルはゲームや運転といった特定のシナリオに限定されており、一般的な世界の動的環境の複雑さを捉える能力を制限する。そこで本研究では,一般的な世界物理と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介し,映像生成の能力を大幅に向上させる。大規模な言語モデルの成功からインスピレーションを得たWorldDreamerは、世界モデリングを教師なしのビジュアルシーケンスモデリングの課題として捉えている。これは、視覚的な入力を離散トークンにマッピングし、マスクされたトークンを予測することで達成される。このプロセスの間、世界モデル内の相互作用を容易にするためにマルチモーダルプロンプトを組み込む。我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。 worlddreamerは、テキストからビデオへの変換、画像からビデオへの合成、ビデオ編集などのタスクの実行における汎用性を示している。これらの結果は、様々な世界環境における動的要素の捕捉におけるWorldDreamerの有効性を裏付けるものである。

関連論文リスト

Vid2World: Crafting Video Diffusion Models to Interactive World Models [38.270098691244314]
Vid2Worldは、トレーニング済みのビデオ拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチである。自己回帰生成を可能にするために、そのアーキテクチャとトレーニング目標を構築することにより、事前訓練されたビデオ拡散モデルのカジュアル化を行う。対話型世界モデルにおける行動制御性を高めるための因果的行動誘導機構を導入する。
論文参考訳（メタデータ） (2025-05-20T13:41:45Z)
Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。この生成は、環境の永続的な3Dマップに集約される。
論文参考訳（メタデータ） (2025-05-05T17:59:17Z)
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft [21.530000271719803]
我々はMinecraft上でリアルタイムインタラクティブな世界モデルであるMineWorldを提案する。 MineWorldはビジュアルアクション自動回帰トランスフォーマーによって駆動され、ペア化されたゲームシーンと対応するアクションを入力として取り込む。本研究では,各フレームの空間的冗長トークンを同時に予測する並列デコーディングアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-04-11T09:41:04Z)
AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文参考訳（メタデータ） (2025-03-24T17:58:15Z)
DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文参考訳（メタデータ） (2024-10-14T17:19:23Z)
Pandora: Towards General World Model with Natural Language Actions and Video States [61.30962762314734]
Pandoraは、ビデオを生成して世界状態をシミュレートし、自由テキストアクションによるリアルタイム制御を可能にするハイブリッド自動回帰拡散モデルである。 Pandoraは、大規模な事前トレーニングと命令チューニングを通じて、ドメインの汎用性、ビデオの一貫性、制御性を実現する。
論文参考訳（メタデータ） (2024-06-12T18:55:51Z)
iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。 iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文参考訳（メタデータ） (2024-05-24T05:29:12Z)
DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving [76.24483706445298]
実世界の運転シナリオから完全に派生した世界モデルであるDriveDreamerを紹介する。最初の段階では、DriveDreamerは構造化されたトラフィックの制約を深く理解し、次の段階では将来の状態を予測できる。 DriveDreamerは、現実的で合理的な運転ポリシーの生成を可能にし、インタラクションと実用的なアプリケーションのための道を開く。
論文参考訳（メタデータ） (2023-09-18T13:58:42Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。