論文の概要: Xiaomi EV World Model: A Joint World Model Integrating Reconstruction and Generation for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.18137v2
- Date: Tue, 19 May 2026 09:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.566633
- Title: Xiaomi EV World Model: A Joint World Model Integrating Reconstruction and Generation for Autonomous Driving
- Title(参考訳): Xiaomi EV World Model: 自動運転のための再構築と生成を統合したジョイントワールドモデル
- Authors: Lijun Zhou, Hongcheng Luo, Zhenxin Zhu, Cheng Chi, Mingfei Tu, Kaixin Xiong, Lei Gong, Zhanqian Wu, Zehan Zhang, Fangzhen Li, Hao Li, Yingying Shen, Jiale He, Haohui Zhu, Shan Zhao, Kai Wang, Zhiwei Zhan, Yuechuan Pu, Kaiyuan Tan, Ruiling Yang, Xianqi Wang, Tianyi Yan, Jiawei Zhou, Lei Zhang, Jingyang Zhao, Xi Zhou, Chitian Sun, Chenming Wu, Jiong Deng, Hongwei Xie, Ming Lu, Kun Ma, Long Chen, Guang Chen, Hangjun Ye, Bing Wang, Haiyang Sun,
- Abstract要約: 本報告では,世界モデルの自律運転における2つのコア機能に対処する統合技術システムを提案する。
世界表現のために,スパースシーンクエリによって駆動されるフィードフォワード再構築アーキテクチャであるWorldRecを提案する。
次世代に向けて,両方向性事前学習のための2段階のトレーニングフレームワークWorldGenを提案し,それに続いて因果微調整を行う。
- 参考スコア(独自算出の注目度): 51.90209659403234
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This report presents a unified technical system addressing the two core capabilities of world models for autonomous driving: world representation and world generation. For world representation, we propose WorldRec, a feed-forward reconstruction architecture driven by sparse scene queries. WorldRec initializes structured queries in 3D space, leveraging them to aggregate cross-view, cross-temporal features, thereby naturally enforcing spatial consistency across frames and yielding compact yet high-fidelity 3D Gaussian scene representations. For world generation, we propose WorldGen, a two-stage training framework of bidirectional pretraining followed by causal fine-tuning through three progressive stages (Teacher Forcing, ODE distillation, and DMD), enabling high-quality online causal video generation in as few as 4 denoising steps. Building on both modules, we further introduce the JWM, which deeply integrates WorldRec and WorldGen to achieve synergistic gains in generation stability, cross-frame consistency, and visual fidelity, providing a solid foundation for closed-loop simulation, data synthesis, and end-to-end training in autonomous driving.
- Abstract(参考訳): 本報告では、自律運転における世界モデルの2つのコア機能である世界表現と世界生成に対処する統合技術システムを提案する。
世界表現のために,スパースシーンクエリによって駆動されるフィードフォワード再構築アーキテクチャであるWorldRecを提案する。
WorldRecは、構造化クエリを3D空間で初期化し、それを利用して、クロスビュー、クロスタイムな特徴を集約し、フレーム間の空間的一貫性を自然に強制し、コンパクトで高忠実な3Dガウスのシーン表現を生成する。
先進的な3段階(Teacher Forcing, ODE蒸留, DMD)を経た双方向事前訓練の2段階トレーニングフレームワークWorldGenを提案し, 高品質なオンライン因果ビデオ生成を実現する。
両モジュール上に構築するJWMは,生成安定性,クロスフレーム一貫性,視覚的忠実性などの相乗的向上を実現するために,WorldRecとWorldGenを深く統合した上で,クローズドループシミュレーション,データ合成,自律運転におけるエンドツーエンドトレーニングの基盤となる。
関連論文リスト
- Infrastructure-Centric World Models: Bridging Temporal Depth and Spatial Breadth for Roadside Perception [3.3242611619309614]
本稿では,インフラ中心の世界モデル(I-WM)を3段階に展開する。
本稿では,マルチモーダルなデータエンジンとして,多層アーキテクチャ,アノテーションなし認識,エンド・ツー・エンドな生成世界モデルを提案する。
我々は,世界モデルを駆動するパラダイムの分類,LeCunのJEPA,Li Fei-Feiの空間知性,VLAアーキテクチャに対するI-WMの位置づけを確立する。
論文 参考訳(メタデータ) (2026-04-19T22:50:32Z) - RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - DSG-World: Learning a 3D Gaussian World Model from Dual State Videos [14.213608866611784]
本稿では,Dual Stateの観測から3次元ガウス世界モデルを明示的に構築する,新しいエンドツーエンドフレームワークDSG-Worldを提案する。
提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。
論文 参考訳(メタデータ) (2025-06-05T16:33:32Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。