論文の概要: MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.15875v1
- Date: Thu, 20 Mar 2025 05:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:52.279153
- Title: MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving
- Title(参考訳): MiLA: 自動運転のための多視点集中型長期ビデオ生成世界モデル
- Authors: Haiguang Wang, Daqi Liu, Hongwei Xie, Haisong Liu, Enhui Ma, Kaicheng Yu, Limin Wang, Bing Wang,
- Abstract要約: 最大1分間の高精細長ビデオを生成するためのフレームワークであるMiLAを提案する。
MiLAは、ビデオ生成の安定化と動的オブジェクトの歪みの補正に、Coarse-to-Re(fine)アプローチを用いる。
nuScenesデータセットの実験は、MiLAがビデオ生成の品質で最先端のパフォーマンスを達成することを示している。
- 参考スコア(独自算出の注目度): 26.00279480104371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, data-driven techniques have greatly advanced autonomous driving systems, but the need for rare and diverse training data remains a challenge, requiring significant investment in equipment and labor. World models, which predict and generate future environmental states, offer a promising solution by synthesizing annotated video data for training. However, existing methods struggle to generate long, consistent videos without accumulating errors, especially in dynamic scenes. To address this, we propose MiLA, a novel framework for generating high-fidelity, long-duration videos up to one minute. MiLA utilizes a Coarse-to-Re(fine) approach to both stabilize video generation and correct distortion of dynamic objects. Additionally, we introduce a Temporal Progressive Denoising Scheduler and Joint Denoising and Correcting Flow modules to improve the quality of generated videos. Extensive experiments on the nuScenes dataset show that MiLA achieves state-of-the-art performance in video generation quality. For more information, visit the project website: https://github.com/xiaomi-mlab/mila.github.io.
- Abstract(参考訳): 近年、データ駆動技術は高度に進歩した自動運転システムを備えているが、希少かつ多様な訓練データの必要性は依然として課題であり、機器や労働に多大な投資を必要としている。
将来の環境状態を予測し、生成する世界モデルは、トレーニングのために注釈付きビデオデータを合成することで、有望なソリューションを提供する。
しかし、既存の手法では、特に動的なシーンにおいて、エラーを蓄積することなく、長い一貫したビデオを生成するのに苦労している。
そこで本研究では,高精細長動画を最大1分間作成するための新しいフレームワークであるMiLAを提案する。
MiLAは、ビデオ生成の安定化と動的オブジェクトの歪みの補正の両方に、Coarse-to-Re(fine)アプローチを利用する。
さらに,ビデオの質を向上させるため,時間的プログレッシブ・デノナイジング・スケジューリングとジョイント・デノナイジング・フロー・モジュールを導入する。
nuScenesデータセットの大規模な実験により、MiLAはビデオ生成の品質において最先端のパフォーマンスを達成することが示された。
詳細はプロジェクトのWebサイト(https://github.com/xiaomi-mlab/mila.github.io)を参照のこと。
関連論文リスト
- PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。
モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文 参考訳(メタデータ) (2025-04-17T17:59:56Z) - SkyReels-V2: Infinite-length Film Generative Model [35.00453687783287]
Infinite-length Film Generative Model である SkyReels-V2 を提案し,マルチモーダル大言語モデル(MLLM),マルチステージ事前学習,強化学習,拡散強制フレームワークを提案する。
我々は,基本映像生成のためのプログレッシブ・レゾリューション・プレトレーニングを確立し,その後4段階のポストトレーニング強化を行った。
論文 参考訳(メタデータ) (2025-04-17T16:37:27Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - VaViM and VaVAM: Autonomous Driving through Video Generative Modeling [88.33638585518226]
本稿では,オープンソースの自動回帰ビデオモデル(VaM)とそのビデオアクションモデル(VaVAM)を紹介する。
オープンループ運転とクローズドループ運転のシナリオでモデルを評価したところ、ビデオベースの事前学習が自律運転の可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2025-02-21T18:56:02Z) - Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression [23.99292102237088]
本稿では,アクション・ビデオ・ダイナミックスをモデル化するためのヘテロジニアス・マスケッド・オートレグレス(HMA)を提案する。
ポストトレーニング後、このモデルは、ポリシーを評価し、合成データを生成するためのビデオシミュレータとして使用できる。
論文 参考訳(メタデータ) (2025-02-06T18:38:26Z) - SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular Input [6.275971782566314]
本研究では,SpatialDreamerと呼ばれるビデオ拡散モデルを用いて,自己監督型ステレオ合成ビデオパラダイムを提案する。
ステレオビデオデータ不足に対処するため,Depth ベースのビデオ生成モジュール DVG を提案する。
また,RefinerNetと,効率的で専用のトレーニングを容易にするための自己教師型合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T15:12:59Z) - MyGo: Consistent and Controllable Multi-View Driving Video Generation with Camera Control [4.556249147612401]
MyGoはビデオ生成を駆動するエンドツーエンドフレームワークである。
MyGoは、カメラの制御性とマルチビューの一貫性を向上するための条件として、オンボードカメラの動作を導入している。
その結果、MyGoは一般的なカメラ制御ビデオ生成とマルチビュー駆動ビデオ生成の両タスクにおいて最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-10T03:39:08Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving [12.004604110512421]
視覚言語モデル(VLM)は、自律運転に影響を与える大きな可能性を持つ革命的ツールとして出現している。
本稿では,駆動ビデオを生成するためのDriveGenVLMフレームワークを提案し,それらを理解するためにVLMを使用する。
論文 参考訳(メタデータ) (2024-08-29T15:52:56Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。