論文の概要: DistillDrive: End-to-End Multi-Mode Autonomous Driving Distillation by Isomorphic Hetero-Source Planning Model
- arxiv url: http://arxiv.org/abs/2508.05402v1
- Date: Thu, 07 Aug 2025 13:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.887736
- Title: DistillDrive: End-to-End Multi-Mode Autonomous Driving Distillation by Isomorphic Hetero-Source Planning Model
- Title(参考訳): DistillDrive: 同型ヘテロ源計画モデルによる多モード自律運転蒸留
- Authors: Rui Yu, Xianghang Zhang, Runkai Zhao, Huaicheng Yan, Meng Wang,
- Abstract要約: エンド・ツー・エンドの知識蒸留に基づく自律運転モデルであるDistillDriveを紹介した。
教師モデルとして構造化シーン表現に基づく計画モデルを用いる。
我々は, 衝突速度を50%低減し, nuScenes と NAVSIM のデータセット上でモデルを検証した。
- 参考スコア(独自算出の注目度): 23.573720107353868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving has been recently seen rapid development, exerting a profound influence on both industry and academia. However, the existing work places excessive focus on ego-vehicle status as their sole learning objectives and lacks of planning-oriented understanding, which limits the robustness of the overall decision-making prcocess. In this work, we introduce DistillDrive, an end-to-end knowledge distillation-based autonomous driving model that leverages diversified instance imitation to enhance multi-mode motion feature learning. Specifically, we employ a planning model based on structured scene representations as the teacher model, leveraging its diversified planning instances as multi-objective learning targets for the end-to-end model. Moreover, we incorporate reinforcement learning to enhance the optimization of state-to-decision mappings, while utilizing generative modeling to construct planning-oriented instances, fostering intricate interactions within the latent space. We validate our model on the nuScenes and NAVSIM datasets, achieving a 50\% reduction in collision rate and a 3-point improvement in closed-loop performance compared to the baseline model. Code and model are publicly available at https://github.com/YuruiAI/DistillDrive
- Abstract(参考訳): エンドツーエンドの自動運転は、最近急速に発展し、産業とアカデミックの両方に大きな影響を与えている。
しかしながら、既存の作業は、Ego-vehicleの地位を唯一の学習目標として過度に重視し、計画指向の理解が欠如しているため、全体的な意思決定作業の堅牢性は制限される。
本研究では,多種多様なインスタンス模倣を利用して多モード動作特徴学習を実現する,エンド・ツー・エンドの知識蒸留に基づく自律運転モデルであるDistillDriveを紹介する。
具体的には,教師モデルとして構造化シーン表現に基づく計画モデルを用い,その多目的学習対象として多種多様な計画インスタンスを活用する。
さらに,強化学習を取り入れて,状態と決定のマッピングの最適化を向上するとともに,生成モデルを用いて計画指向のインスタンスを構築することにより,潜時空間における複雑な相互作用を育む。
本研究では,NuScenesとNAVSIMデータセットを用いて,衝突速度を50%低減し,ベースラインモデルと比較してクローズドループ性能を3ポイント改善した。
コードとモデルはhttps://github.com/YuruiAI/DistillDriveで公開されている。
関連論文リスト
- AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [42.409352964719204]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - DriveX: Omni Scene Modeling for Learning Generalizable World Knowledge in Autonomous Driving [20.197094443215963]
本稿では、動画から一般的なシーンのダイナミクスと全体像を学習する自己教師型世界モデルDriveXを提案する。
DriveXは,マルチモーダル監視3Dポイントクラウド予測,2Dセマンティック表現,イメージ生成を統合するモジュールであるOmni Scene Modeling (OSM)を導入した。
下流適応のために我々は,DriveXの予測から特徴を動的に集約し,タスク固有の推論を強化する統一パラダイムであるFuture Spatial Attention (FSA)を設計する。
論文 参考訳(メタデータ) (2025-05-25T17:27:59Z) - Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。