論文の概要: STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation
- arxiv url: http://arxiv.org/abs/2506.13138v1
- Date: Mon, 16 Jun 2025 06:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.588315
- Title: STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation
- Title(参考訳): STAGE: 長距離運転シーンシミュレーションのためのストリーム中心生成世界モデル
- Authors: Jiamin Wang, Yichen Yao, Xiang Feng, Hang Wu, Yaming Wang, Qingqiu Huang, Yuexin Ma, Xinge Zhu,
- Abstract要約: STAGEは、階層的な特徴調整と、持続可能なビデオ合成のためのマルチフェーズ最適化の先駆けとなる自動回帰フレームワークである。
HTFTはビデオ生成プロセスを通してビデオフレーム間の時間的一貫性を高める。
我々はNuscenesデータセット上で600フレームの高品質なドライビングビデオを生成しました。
- 参考スコア(独自算出の注目度): 24.86836673853292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generation of temporally consistent, high-fidelity driving videos over extended horizons presents a fundamental challenge in autonomous driving world modeling. Existing approaches often suffer from error accumulation and feature misalignment due to inadequate decoupling of spatio-temporal dynamics and limited cross-frame feature propagation mechanisms. To address these limitations, we present STAGE (Streaming Temporal Attention Generative Engine), a novel auto-regressive framework that pioneers hierarchical feature coordination and multi-phase optimization for sustainable video synthesis. To achieve high-quality long-horizon driving video generation, we introduce Hierarchical Temporal Feature Transfer (HTFT) and a novel multi-stage training strategy. HTFT enhances temporal consistency between video frames throughout the video generation process by modeling the temporal and denoising process separately and transferring denoising features between frames. The multi-stage training strategy is to divide the training into three stages, through model decoupling and auto-regressive inference process simulation, thereby accelerating model convergence and reducing error accumulation. Experiments on the Nuscenes dataset show that STAGE has significantly surpassed existing methods in the long-horizon driving video generation task. In addition, we also explored STAGE's ability to generate unlimited-length driving videos. We generated 600 frames of high-quality driving videos on the Nuscenes dataset, which far exceeds the maximum length achievable by existing methods.
- Abstract(参考訳): 時間的に一貫した高忠実な運転映像を水平線上に生成することは、自律運転の世界モデリングにおける根本的な課題である。
既存のアプローチは、時空間力学と限られたクロスフレーム特徴伝搬機構の不適切な分離によって、しばしばエラーの蓄積と特徴の調整に悩まされる。
これらの制約に対処するために,階層的特徴調整と持続的ビデオ合成のためのマルチフェーズ最適化を開拓した,新しい自動回帰フレームワークSTAGE(Streaming Temporal Attention Generative Engine)を提案する。
高品質な長距離駆動ビデオ生成を実現するために,階層型時間的特徴伝達(HTFT)と,新しい多段階学習戦略を導入する。
HTFTは、時間的・聴覚的過程を別々にモデル化し、フレーム間で聴覚的特徴を伝達することにより、ビデオ生成プロセスを通してビデオフレーム間の時間的一貫性を高める。
多段階のトレーニング戦略は、モデルデカップリングと自動回帰推論プロセスシミュレーションにより、トレーニングを3段階に分割し、モデル収束を加速し、エラーの蓄積を低減する。
Nuscenesデータセットの実験により、STAGEは長距離駆動ビデオ生成タスクにおいて既存の手法を大幅に上回っていることが示された。
また,STAGEの無制限駆動ビデオ生成能力についても検討した。
我々はNuscenesデータセット上で600フレームの高品質なドライビングビデオを生成しました。
関連論文リスト
- Temporal In-Context Fine-Tuning for Versatile Control of Video Diffusion Models [34.131515004434846]
我々は,事前学習した映像拡散モデルを条件付き生成タスクに適用するための効率的なアプローチであるTIC-FT(Temporal In-Context Fine-Tuning)を導入する。
TIC-FTはアーキテクチャの変更を必要とせず、10-30のトレーニングサンプルで高いパフォーマンスを実現している。
我々は,CagVideoX-5B や Wan-14B といった大規模ベースモデルを用いて,映像映像生成や映像映像生成など,様々なタスクにまたがる手法を検証する。
論文 参考訳(メタデータ) (2025-06-01T12:57:43Z) - Generative Pre-trained Autoregressive Diffusion Transformer [54.476056835275415]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion [19.98565541640125]
自動回帰拡散(AR-Diffusion, Auto-Regressive Diffusion)は, フレキシブルビデオ生成のための自己回帰拡散モデルと拡散モデルの強みを組み合わせた新しいモデルである。
自己回帰生成に触発されて、個々のフレームの腐敗タイムステップに非減少制約を組み込む。
このセットアップは、時間的因果的注意とともに、時間的コヒーレンスを保ちながら、長さの異なる柔軟なビデオの生成を可能にする。
論文 参考訳(メタデータ) (2025-03-10T15:05:59Z) - Efficient Long-duration Talking Video Synthesis with Linear Diffusion Transformer under Multimodal Guidance [19.590464986176617]
LetsTalkは、ビデオ合成のための拡散拡散TranSformerである。
提案手法は最先端の生成品質を実現し,時間的コヒーレントでリアルなビデオを生成する。
論文 参考訳(メタデータ) (2024-11-24T04:46:00Z) - MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control [68.74166535159311]
MagicDrive-V2は、MVDiTブロックと時空間条件エンコーディングを統合し、マルチビュービデオ生成と正確な幾何学的制御を可能にする新しいアプローチである。
これは、解像度が3.3倍、フレーム数が4.4倍のマルチビュー駆動ビデオ合成を可能にする(現在のSOTAと比較)。
論文 参考訳(メタデータ) (2024-11-21T03:13:30Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。