論文の概要: LongDWM: Cross-Granularity Distillation for Building a Long-Term Driving World Model
- arxiv url: http://arxiv.org/abs/2506.01546v1
- Date: Mon, 02 Jun 2025 11:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.285873
- Title: LongDWM: Cross-Granularity Distillation for Building a Long-Term Driving World Model
- Title(参考訳): LongDWM:長期駆動型世界モデル構築のためのクロスグラニュラリティ蒸留
- Authors: Xiaodong Wang, Zhirong Wu, Peixi Peng,
- Abstract要約: ドライビングワールドモデルは、現在の状態と行動の状態に基づいて、ビデオ生成によって未来をシミュレートするために使用される。
最近の研究は、ディフュージョントランスフォーマー(DiT)を駆動世界モデルのバックボーンとして利用し、学習の柔軟性を向上させる。
我々は、シンプルで効果的な長期運転世界モデルを構築するためのソリューションをいくつか提案する。
- 参考スコア(独自算出の注目度): 22.92353994818742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driving world models are used to simulate futures by video generation based on the condition of the current state and actions. However, current models often suffer serious error accumulations when predicting the long-term future, which limits the practical application. Recent studies utilize the Diffusion Transformer (DiT) as the backbone of driving world models to improve learning flexibility. However, these models are always trained on short video clips (high fps and short duration), and multiple roll-out generations struggle to produce consistent and reasonable long videos due to the training-inference gap. To this end, we propose several solutions to build a simple yet effective long-term driving world model. First, we hierarchically decouple world model learning into large motion learning and bidirectional continuous motion learning. Then, considering the continuity of driving scenes, we propose a simple distillation method where fine-grained video flows are self-supervised signals for coarse-grained flows. The distillation is designed to improve the coherence of infinite video generation. The coarse-grained and fine-grained modules are coordinated to generate long-term and temporally coherent videos. In the public benchmark NuScenes, compared with the state-of-the-art front-view model, our model improves FVD by $27\%$ and reduces inference time by $85\%$ for the video task of generating 110+ frames. More videos (including 90s duration) are available at https://Wang-Xiaodong1899.github.io/longdwm/.
- Abstract(参考訳): ドライビングワールドモデルは、現在の状態と行動の状態に基づいて、ビデオ生成によって未来をシミュレートするために使用される。
しかし、現在のモデルは、長期的な未来を予測する際に深刻なエラーの蓄積に悩まされ、実用的応用は制限される。
最近の研究は、ディフュージョントランスフォーマー(DiT)を駆動世界モデルのバックボーンとして利用し、学習の柔軟性を向上させる。
しかし、これらのモデルは常に短いビデオクリップ(高いfpsと短い期間)で訓練されており、トレーニングと推論のギャップのために複数のロールアウト世代は一貫性のある、合理的な長いビデオを生成するのに苦労している。
この目的のために、我々はシンプルで効果的な長期運転世界モデルを構築するためのいくつかの解決策を提案する。
まず,世界モデル学習を階層的に切り離して,大きな動き学習と双方向の連続的な動き学習を行う。
そこで, 運転シーンの連続性を考慮して, 粗大な流れに対して, きめ細かいビデオフローを自己教師信号とする簡易蒸留法を提案する。
蒸留は、無限のビデオ生成のコヒーレンスを改善するように設計されている。
粗くきめ細かなモジュールをコーディネートして、長期的な時間的コヒーレントなビデオを生成する。
パブリックベンチマークであるNuScenesでは、最先端のフロントビューモデルと比較して、FVDを27 %$で改善し、110以上のフレームを生成するビデオタスクに対して、推論時間を85 %$で削減した。
90年代のビデオはhttps://Wang-Xiaodong1899.github.io/longdwm/.comで公開されている。
関連論文リスト
- Long-Context Autoregressive Video Modeling with Next-Frame Prediction [17.710915002557996]
長文ビデオモデリングは、生成モデルが世界シミュレータとして機能するために不可欠である。
長いビデオで直接トレーニングすることは自然な解決策だが、視覚トークンの急速な成長は計算的に禁止する。
フレームオートレグレッシブ(FAR)モデルを提案し、連続フレーム間の時間的依存関係をモデル化し、ビデオ拡散変換器よりも高速に収束し、トークンレベルの自己回帰モデルより優れる。
論文 参考訳(メタデータ) (2025-03-25T03:38:06Z) - VaViM and VaVAM: Autonomous Driving through Video Generative Modeling [88.33638585518226]
本稿では,オープンソースの自動回帰ビデオモデル(VaM)とそのビデオアクションモデル(VaVAM)を紹介する。
オープンループ運転とクローズドループ運転のシナリオでモデルを評価したところ、ビデオベースの事前学習が自律運転の可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2025-02-21T18:56:02Z) - DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT [33.943125216555316]
我々は、自動運転のためのGPTスタイルの世界モデルであるDrivingWorldを紹介する。
本稿では,連続フレーム間の時間的コヒーレンスをモデル化する次世代予測手法を提案する。
また,長期ドリフト問題を軽減するため,トークン予測のための新しいマスキング戦略と再重み付け戦略を提案する。
論文 参考訳(メタデータ) (2024-12-27T07:44:07Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。