論文の概要: minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models
- arxiv url: http://arxiv.org/abs/2605.30263v1
- Date: Thu, 28 May 2026 17:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.584322
- Title: minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models
- Title(参考訳): minWM: リアルタイムインタラクティブビデオワールドモデルのためのフルスタックオープンソースフレームワーク
- Authors: Min Zhao, Hongzhou Zhu, Bokai Yan, Zihan Zhou, Yimin Chen, Wenqiang Sun, Kaiwen Zheng, Guande He, Xiao Yang, Chongxuan Li, Fan Bao, Jun Zhu,
- Abstract要約: minWMはリアルタイムインタラクティブなビデオワールドモデルを構築するためのフルスタックのオープンソースフレームワークである。
minWMは既存の双方向T2V/TI2Vビデオ基盤モデルをカメラ制御可能な数ステップの自己回帰世界モデルに変換する。
- 参考スコア(独自算出の注目度): 51.45338589543413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent video diffusion foundation models have achieved remarkable progress in high-quality video generation, yet turning them into real-time interactive video world models remains challenging. Interactive world models require controllable, causal, and low-latency rollout, which in practice demands a full pipeline spanning data construction, controllable fine-tuning, autoregressive training, few-step distillation, and streaming inference. In this work, we present minWM, a full-stack open-source framework for building real-time interactive video world models. minWM provides an end-to-end pipeline that converts existing bidirectional T2V/TI2V video foundation models into camera-controllable few-step autoregressive world models. Specifically, minWM first fine-tunes a bidirectional video diffusion model with camera control, and then applies the Causal Forcing / Causal Forcing++ pipeline, including AR diffusion training, causal ODE or causal consistency distillation, and asymmetric DMD, to distill it into a few-step autoregressive generator for low-latency rollout. The framework is modular and architecture-extensible: we instantiate it on representative open backbones, including Wan2.1-T2V-1.3B and HY1.5-TI2V-8B, covering both cross-attention-based condition injection and MMDiT-style architectures. minWM also supports adapting existing video world models, such as HY-WorldPlay, to new data distributions, training recipes, and latency targets. Beyond releasing runnable scripts, checkpoints, documentation, and inference code, we provide practical ablations on camera trajectory quality, controllability training steps, and minimal batch-size requirements. We hope minWM serves as a reproducible and extensible recipe for building and adapting real-time interactive video world models. Project Page: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
- Abstract(参考訳): 最近のビデオ拡散基盤モデルは高品質なビデオ生成において顕著な進歩を遂げているが、それらをリアルタイムなインタラクティブなビデオワールドモデルに転換することは依然として困難である。
インタラクティブな世界モデルは、制御可能、因果、低レイテンシのロールアウトを必要としており、実際には、データ構築、制御可能微調整、自動回帰トレーニング、数ステップの蒸留、ストリーミング推論にまたがる完全なパイプラインが必要である。
本研究では,リアルタイムインタラクティブなビデオワールドモデルを構築するためのオープンソースフレームワークminWMを紹介する。
minWMは、既存の双方向T2V/TI2Vビデオ基盤モデルをカメラ制御可能な数ステップの自動回帰世界モデルに変換するエンドツーエンドパイプラインを提供する。
具体的には、まずカメラ制御付き双方向ビデオ拡散モデルを微調整し、次に、AR拡散トレーニング、因果整合蒸留、非対称DMDを含むCausal Forcing/Causal Forcing++パイプラインを適用して、低遅延ロールアウトのための数ステップの自己回帰生成器に蒸留する。
Wan2.1-T2V-1.3B や HY1.5-TI2V-8B など、オープンな典型的なバックボーンをインスタンス化し、クロスアテンションベースのコンディションインジェクションとMMDiTスタイルのアーキテクチャの両方をカバーする。
minWMはまた、HY-WorldPlayのような既存のビデオワールドモデルを新しいデータ配信、トレーニングレシピ、遅延ターゲットに適応する機能もサポートする。
実行可能なスクリプト、チェックポイント、ドキュメンテーション、推論コードだけでなく、カメラの軌道品質、可制御性トレーニングステップ、バッチサイズ要件の最小化も実現しています。
minWMは、リアルタイムインタラクティブなビデオワールドモデルの構築と適応のための再現可能で拡張可能なレシピとして機能することを願っている。
Project Page: [https://github.com/shengshu-ai/minWM] (https://github.com/shengshu-ai/minWM)
関連論文リスト
- MAD: Motion Appearance Decoupling for efficient Driving World Models [94.40548866741791]
本稿では,一般的な映像モデルを制御可能な運転世界モデルに変換する,効率的な適応フレームワークを提案する。
鍵となるアイデアは、外見合成からモーションラーニングを分離することである。
私たちのMAD-LTXモデルであるLTXへのスケーリングは、すべてのオープンソース競合より優れています。
論文 参考訳(メタデータ) (2026-01-14T12:52:23Z) - VDOT: Efficient Unified Video Creation via Optimal Transport Distillation [70.02065520468726]
本稿では,VDOT という名前の効率的な統合ビデオ生成モデルを提案する。
我々は,実測値分布と偽測値分布の差分を最適化するために,新しい計算最適輸送(OT)技術を用いる。
統合ビデオ生成モデルの訓練を支援するため,ビデオデータアノテーションとフィルタリングのための完全自動パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-07T11:31:00Z) - Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation [41.993197533574126]
Inferixは、最適化された半自己回帰復号プロセスを通じて没入型世界合成を可能にする推論エンジンである。
Inferixはさらに、インタラクティブなビデオストリーミングとプロファイリングによる提供を強化し、リアルタイムのインタラクションと現実的なシミュレーションを可能にしている。
論文 参考訳(メタデータ) (2025-11-25T01:45:04Z) - Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model [15.16063778402193]
Matrix-Game 2.0はインタラクティブな世界モデルで、数ステップの自己回帰拡散を通じて長時間の動画をオンザフライで生成する。
超高速25FPSで、さまざまなシーンで高品質のミニレベルビデオを生成することができる。
論文 参考訳(メタデータ) (2025-08-18T15:28:53Z) - MinD: Learning A Dual-System World Model for Real-Time Planning and Implicit Risk Analysis [32.08769443927576]
我々は、リアルタイム・リスク対応計画のためのデュアルシステム・ワールドモデルであるManipulate in Dream (MinD)を提案する。
MinDは2つの非同期拡散プロセスを使用する: 将来のシーンを予測する低周波ビジュアルジェネレータ(LoDiff)とアクションを出力する高周波拡散ポリシー(HiDiff)である。
私たちの重要な洞察は、ロボットポリシーが完全に認知されたフレームを必要とせず、単一の認知ステップで生成された低解像度の潜伏剤に頼ることができるということです。
MinDがRL-Benchで63%の成功率、実世界のFrankaタスクで60%、11.3FPSで稼働
論文 参考訳(メタデータ) (2025-06-23T17:59:06Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。