論文の概要: ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask
- arxiv url: http://arxiv.org/abs/2602.03213v1
- Date: Tue, 03 Feb 2026 07:28:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.311216
- Title: ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask
- Title(参考訳): ConsisDrive: インスタンスマスクによるビデオ生成のためのアイデンティティ保護駆動世界モデル
- Authors: Zhuoran Yang, Yanyong Zhang,
- Abstract要約: ConsisDriveは、インスタンスレベルで時間的一貫性を強制するために設計された、ID保存駆動の世界モデルである。
当社のフレームワークには,インスタンスマインド・アテンションとインスタンスマインド・ロスという,2つの重要なコンポーネントが組み込まれています。
ConsisDriveは最先端の駆動ビデオ生成品質を実現し、nuScenesデータセット上での下流での自律運転タスクを大幅に改善した。
- 参考スコア(独自算出の注目度): 65.36169132836518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving relies on robust models trained on large-scale, high-quality multi-view driving videos. Although world models provide a cost-effective solution for generating realistic driving data, they often suffer from identity drift, where the same object changes its appearance or category across frames due to the absence of instance-level temporal constraints. We introduce ConsisDrive, an identity-preserving driving world model designed to enforce temporal consistency at the instance level. Our framework incorporates two key components: (1) Instance-Masked Attention, which applies instance identity masks and trajectory masks within attention blocks to ensure that visual tokens interact only with their corresponding instance features across spatial and temporal dimensions, thereby preserving object identity consistency; and (2) Instance-Masked Loss, which adaptively emphasizes foreground regions with probabilistic instance masking, reducing background noise while maintaining overall scene fidelity. By integrating these mechanisms, ConsisDrive achieves state-of-the-art driving video generation quality and demonstrates significant improvements in downstream autonomous driving tasks on the nuScenes dataset. Our project page is https://shanpoyang654.github.io/ConsisDrive/page.html.
- Abstract(参考訳): 自律運転は、大規模で高品質なマルチビュー駆動ビデオで訓練された堅牢なモデルに依存している。
世界モデルは現実的な運転データを生成するためのコスト効率の良いソリューションを提供するが、それらはしばしばアイデンティティドリフトに悩まされる。
我々はConsisDriveを紹介した。ConsisDriveはインスタンスレベルで時間的一貫性を強制するように設計されたID保存駆動世界モデルである。
本フレームワークは,(1)注目ブロック内のインスタンス識別マスクとトラジェクトリマスクを適用して,視覚トークンが空間的および時間的次元にまたがって対応するインスタンスの特徴のみと相互作用することを保証する。
これらのメカニズムを統合することで、ConsisDriveは最先端の駆動ビデオ生成品質を達成し、nuScenesデータセット上での下流での自律運転タスクの大幅な改善を示す。
私たちのプロジェクトページはhttps://shanpoyang654.github.io/ConsisDrive/page.htmlです。
関連論文リスト
- InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation [53.47253633654885]
InstaDriveは、2つの重要な進歩を通じてビデオリアリズムを促進する新しいフレームワークである。
これらのインスタンス認識機構を組み込むことで、InstaDriveは最先端のビデオ生成品質を実現する。
私たちのプロジェクトページはhttps://shanpoyang654.io/InstaDrive/page.htmlです。
論文 参考訳(メタデータ) (2026-02-03T08:22:13Z) - Optimization-Guided Diffusion for Interactive Scene Generation [52.23368750264419]
本稿では,拡散型サンプリングにおける構造的一貫性と相互作用認識を実現するための,最適化誘導型トレーニングフリーフレームワークであるOMEGAを提案する。
OMEGAは生成リアリズム,一貫性,可制御性を向上し,身体的および行動学的に有効なシーンの比率を増大させることを示す。
当社のアプローチでは,3秒未満の時間対コリションで,より近いコリジョンフレームを5ドル(約5,500円)で生成することも可能だ。
論文 参考訳(メタデータ) (2025-12-08T15:56:18Z) - InstDrive: Instance-Aware 3D Gaussian Splatting for Driving Scenes [30.149975412543444]
本稿では,動的駆動シーンのインタラクティブな再構成に適したインスタンス認識型3Dガウス平滑化フレームワークInstDriveを提案する。
本研究では,SAM が生成したマスクを擬似基底構造として用いて,対照的な損失と擬似教師対象を通して2次元特徴学習を誘導する。
3Dレベルでは、インスタンスのアイデンティティを暗黙的にエンコードし、ボクセルベースの損失を通じて一貫性を強制する正規化を導入する。
論文 参考訳(メタデータ) (2025-08-16T11:17:31Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。