論文の概要: InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation
- arxiv url: http://arxiv.org/abs/2602.03242v1
- Date: Tue, 03 Feb 2026 08:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.32777
- Title: InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation
- Title(参考訳): InstaDrive: リアルで一貫性のあるビデオ生成のためのインスタンス対応世界モデル
- Authors: Zhuoran Yang, Xi Guo, Chenjing Ding, Chiyu Wang, Wei Wu, Yanyong Zhang,
- Abstract要約: InstaDriveは、2つの重要な進歩を通じてビデオリアリズムを促進する新しいフレームワークである。
これらのインスタンス認識機構を組み込むことで、InstaDriveは最先端のビデオ生成品質を実現する。
私たちのプロジェクトページはhttps://shanpoyang654.io/InstaDrive/page.htmlです。
- 参考スコア(独自算出の注目度): 53.47253633654885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving relies on robust models trained on high-quality, large-scale multi-view driving videos. While world models offer a cost-effective solution for generating realistic driving videos, they struggle to maintain instance-level temporal consistency and spatial geometric fidelity. To address these challenges, we propose InstaDrive, a novel framework that enhances driving video realism through two key advancements: (1) Instance Flow Guider, which extracts and propagates instance features across frames to enforce temporal consistency, preserving instance identity over time. (2) Spatial Geometric Aligner, which improves spatial reasoning, ensures precise instance positioning, and explicitly models occlusion hierarchies. By incorporating these instance-aware mechanisms, InstaDrive achieves state-of-the-art video generation quality and enhances downstream autonomous driving tasks on the nuScenes dataset. Additionally, we utilize CARLA's autopilot to procedurally and stochastically simulate rare but safety-critical driving scenarios across diverse maps and regions, enabling rigorous safety evaluation for autonomous systems. Our project page is https://shanpoyang654.github.io/InstaDrive/page.html.
- Abstract(参考訳): 自律運転は、高品質で大規模なマルチビュー駆動ビデオで訓練された堅牢なモデルに依存している。
世界モデルはリアルなドライビングビデオを生成するためのコスト効率の良いソリューションを提供するが、インスタンスレベルの時間的一貫性と空間幾何学的忠実さを維持するのに苦労している。
これらの課題に対処するために、(1) インスタンスフローガイド(インスタンスフローガイド)は、時間とともにインスタンスのアイデンティティを保ち、時間とともに時間的一貫性を強制するために、フレームをまたいでインスタンス機能を抽出し、伝播する。
2)空間幾何学的アグリグナーは,空間的推論を改善し,高精度なインスタンス位置決めを保証し,オクルージョン階層を明示的にモデル化する。
これらのインスタンス認識メカニズムを取り入れることで、InstaDriveは最先端のビデオ生成品質を達成し、nuScenesデータセットの下流での自動運転タスクを強化する。
さらに、CARLAのオートパイロットを利用して、様々な地図や地域にわたって稀だが安全に重要な運転シナリオを手続き的かつ統計的にシミュレートし、自律システムに対する厳密な安全性評価を可能にする。
私たちのプロジェクトページはhttps://shanpoyang654.github.io/InstaDrive/page.htmlです。
関連論文リスト
- ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask [65.36169132836518]
ConsisDriveは、インスタンスレベルで時間的一貫性を強制するために設計された、ID保存駆動の世界モデルである。
当社のフレームワークには,インスタンスマインド・アテンションとインスタンスマインド・ロスという,2つの重要なコンポーネントが組み込まれています。
ConsisDriveは最先端の駆動ビデオ生成品質を実現し、nuScenesデータセット上での下流での自律運転タスクを大幅に改善した。
論文 参考訳(メタデータ) (2026-02-03T07:28:44Z) - DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving [49.11389494068169]
我々は、生成駆動世界モデルのための最初の総合的なベンチマークであるDrivingGenを提示する。
DrivingGenは、駆動データセットとインターネットスケールのビデオソースの両方から収集されたさまざまな評価データセットを組み合わせる。
一般的なモデルは良く見えるが物理を破るが、運転に特化したものは現実的に動きを捉えているが、視界の質は遅れている。
論文 参考訳(メタデータ) (2026-01-04T13:36:21Z) - Physical Informed Driving World Model [47.04423342994622]
DrivePhysicaは、本質的な物理原理に準拠したリアルなドライビングビデオを生成するために設計された革新的なモデルだ。
我々は,Nuscenesデータセット上での3.96 FIDと38.06 FVDの駆動ビデオ生成品質と下流認識タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-11T14:29:35Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control [68.74166535159311]
MagicDrive-V2は、MVDiTブロックと時空間条件エンコーディングを統合し、マルチビュービデオ生成と正確な幾何学的制御を可能にする新しいアプローチである。
これは、解像度が3.3倍、フレーム数が4.4倍のマルチビュー駆動ビデオ合成を可能にする(現在のSOTAと比較)。
論文 参考訳(メタデータ) (2024-11-21T03:13:30Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。