論文の概要: Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving
- arxiv url: http://arxiv.org/abs/2601.22032v1
- Date: Thu, 29 Jan 2026 17:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.050429
- Title: Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving
- Title(参考訳): Drive-JEPA: エンド・ツー・エンドの運転にマルチモーダルトラジェクトリー蒸留を応用したビデオJEPA
- Authors: Linhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu,
- Abstract要約: Drive-JEPAは、V-JEPA(Video Joint-Embedding Predictive Architecture)とマルチモーダル・トラジェクトリ・蒸留を統合したフレームワークである。
まず、V-JEPAをエンド・ツー・エンドの運転に適用し、大規模な運転ビデオにVTエンコーダを事前学習し、軌道計画に沿った予測表現を生成する。
第2に、人間の軌道に沿って様々なシミュレータ生成軌道を蒸留する提案中心プランナと、安定かつ安全な行動を促進する運動量を考慮した選択機構を導入する。
- 参考スコア(独自算出の注目度): 26.905928731309572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end autonomous driving increasingly leverages self-supervised video pretraining to learn transferable planning representations. However, pretraining video world models for scene understanding has so far brought only limited improvements. This limitation is compounded by the inherent ambiguity of driving: each scene typically provides only a single human trajectory, making it difficult to learn multimodal behaviors. In this work, we propose Drive-JEPA, a framework that integrates Video Joint-Embedding Predictive Architecture (V-JEPA) with multimodal trajectory distillation for end-to-end driving. First, we adapt V-JEPA for end-to-end driving, pretraining a ViT encoder on large-scale driving videos to produce predictive representations aligned with trajectory planning. Second, we introduce a proposal-centric planner that distills diverse simulator-generated trajectories alongside human trajectories, with a momentum-aware selection mechanism to promote stable and safe behavior. When evaluated on NAVSIM, the V-JEPA representation combined with a simple transformer-based decoder outperforms prior methods by 3 PDMS in the perception-free setting. The complete Drive-JEPA framework achieves 93.3 PDMS on v1 and 87.8 EPDMS on v2, setting a new state-of-the-art.
- Abstract(参考訳): エンドツーエンドの自動運転は、転送可能な計画表現を学習するために、自己教師付きビデオ事前訓練を活用する傾向にある。
しかし、シーン理解のための事前訓練されたビデオワールドモデルでは、改善は限られている。
この制限は運転の本質的な曖昧さによって複雑化され、それぞれのシーンは典型的には1つの人間の軌跡しか提供しないため、マルチモーダルな振る舞いを学ぶのが困難である。
本稿では,ビデオ統合埋め込み予測アーキテクチャ(V-JEPA)とマルチモーダルトラジェクトリー蒸留を統合し,エンドツーエンド運転を実現するためのフレームワークであるDrive-JEPAを提案する。
まず、V-JEPAをエンド・ツー・エンドの運転に適用し、大規模な運転ビデオにVTエンコーダを事前学習し、軌道計画に沿った予測表現を生成する。
第2に,人間の軌道に沿った多様なシミュレータ生成軌道を蒸留する提案中心プランナと,安定かつ安全な行動を促進する運動量を考慮した選択機構を導入する。
NAVSIMで評価すると、V-JEPA表現と単純なトランスフォーマーベースのデコーダが組み合わさって、知覚自由環境では3 PDMSにより先行手法より優れる。
完全なDrive-JEPAフレームワークはv1では93.3PDMS、v2では87.8PDMSを達成した。
関連論文リスト
- DriveLaW:Unifying Planning and Video Generation in a Latent Driving World [40.4279880486975]
本稿では,ビデオ生成とモーションプランニングを統合した新しいパラダイムであるDriveLaWを提案する。
DriveLaWは2つのコアコンポーネントから構成される: DriveLaW-Video、表現的潜在表現による高忠実度予測を生成する強力な世界モデルDriveLaW-Act、拡散プランナDriveLaW-Act。
DriveLaWはビデオ予測を大幅に進歩させ、FIDが33.3%、FVDが1.8%向上しただけでなく、NAVSIM計画ベンチマークでも新たな記録を達成している。
論文 参考訳(メタデータ) (2025-12-29T12:32:27Z) - GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation [80.1493315900789]
我々は物理対応駆動ビデオ生成のためのフレームワークGenieDriveを提案する。
われわれのアプローチは、4Dの占有率の生成から始まり、これはその後のビデオ生成の物理インフォームド基盤として機能する。
実験により、GenieDriveは高度に制御可能で、複数ビューの一貫性があり、物理対応の駆動ビデオ生成を可能にする。
論文 参考訳(メタデータ) (2025-12-14T16:23:51Z) - DriveVGGT: Visual Geometry Transformer for Autonomous Driving [50.5036123750788]
DriveVGGTは、自動運転データ用に特別に設計された、スケール対応の4D再構成フレームワークである。
マルチカメラ映像を個別に処理するための時間的ビデオアテンション(TVA)モジュールを提案する。
そこで本研究では,正規化された相対ポーズ埋め込みによるウィンドウアテンションを実現するため,マルチカメラ・コンセントレンシ・アテンション(MCA)モジュールを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:40:43Z) - Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution [96.25314747309811]
将来的なシーンの進化と軌道計画を共同でモデル化する,新たなエンドツーエンドフレームワークであるSeerDriveを紹介する。
本手法はまず,周辺環境の動態を予測するために,将来の鳥眼ビュー(BEV)の表現を予測する。
2つの重要な要素がこれを可能にする:(1)予測されたBEV機能を軌道プランナーに注入する将来対応計画、(2)反復的なシーンモデリングと車両計画。
論文 参考訳(メタデータ) (2025-10-13T07:41:47Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。