論文の概要: Drive-KD: Multi-Teacher Distillation for VLMs in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2601.21288v1
- Date: Thu, 29 Jan 2026 05:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.599564
- Title: Drive-KD: Multi-Teacher Distillation for VLMs in Autonomous Driving
- Title(参考訳): Drive-KD:自律運転におけるVLMのためのマルチ教師蒸留
- Authors: Weitong Lian, Zecong Tang, Haoran Li, Tianjian Gao, Yifei Wang, Zixu Wang, Lingyi Meng, Tengju Ru, Zhejun Cui, Yichen Zhu, Hangshuo Cao, Qi Kang, Tianxing Chen, Yusen Qin, Kaixuan Wang, Yu Zhang,
- Abstract要約: 本稿では、自動運転を「パーセプション推論計画」三脚に分解するフレームワークであるDrive-KDを提案する。
基本ラインを上回り,機能固有の単教師モデルを構築するための蒸留信号として,層固有の注意を識別する。
実験により, 蒸留したInternVL3-1Bモデルは, 42倍のGPUメモリと11.4倍のスループットを有し, 事前学習した78Bモデルよりも全体的な性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 26.97190983537793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving is an important and safety-critical task, and recent advances in LLMs/VLMs have opened new possibilities for reasoning and planning in this domain. However, large models demand substantial GPU memory and exhibit high inference latency, while conventional supervised fine-tuning (SFT) often struggles to bridge the capability gaps of small models. To address these limitations, we propose Drive-KD, a framework that decomposes autonomous driving into a "perception-reasoning-planning" triad and transfers these capabilities via knowledge distillation. We identify layer-specific attention as the distillation signal to construct capability-specific single-teacher models that outperform baselines. Moreover, we unify these single-teacher settings into a multi-teacher distillation framework and introduce asymmetric gradient projection to mitigate cross-capability gradient conflicts. Extensive evaluations validate the generalization of our method across diverse model families and scales. Experiments show that our distilled InternVL3-1B model, with ~42 times less GPU memory and ~11.4 times higher throughput, achieves better overall performance than the pretrained 78B model from the same family on DriveBench, and surpasses GPT-5.1 on the planning dimension, providing insights toward efficient autonomous driving VLMs.
- Abstract(参考訳): 自律運転は重要かつ安全に重要な課題であり、近年のLLM/VLMの進歩は、この領域における推論と計画の新しい可能性を開いた。
しかし、大きなモデルはGPUメモリをかなり要求し、高い推論遅延を示す一方、従来の教師付き微調整(SFT)は小さなモデルの能力ギャップを埋めるのに苦労することが多い。
これらの制約に対処するため,我々は,自律運転を「知覚推論計画」三項に分解し,知識蒸留を通じてこれらの能力を伝達するフレームワークであるDrive-KDを提案する。
基本ラインを上回り,機能固有の単教師モデルを構築するための蒸留信号として,層固有の注意を識別する。
さらに、これらの単教師設定を多教師蒸留フレームワークに統合し、非対称な勾配予測を導入し、クロスキャパビリティ勾配競合を緩和する。
広範囲な評価により,様々なモデルファミリとスケールにわたる手法の一般化が検証された。
実験の結果, 蒸留したInternVL3-1BモデルはGPUメモリの約42倍, スループットの約11.4倍で, DriveBench上の同じファミリーの事前訓練された78Bモデルよりも全体的な性能が向上し, 計画次元においてGPT-5.1を超え, 効率的な自動運転VLMに対する洞察を提供することがわかった。
関連論文リスト
- Cross-Modal Representational Knowledge Distillation for Enhanced Spike-Informed LFP Modeling [0.0]
潜伏電位(LFPs)は、神経実験においてスパイク活動と共に日常的に記録される。
LFPは集団レベルでの集合性のため、固有のモデリング上の課題を提起する。
本稿では,多段スパイク変圧器モデルからLFP変圧器モデルへ高忠実度表現知識を伝達するクロスモーダルな知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-13T21:20:13Z) - dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail [85.47497935739936]
Alpamayo-R1 (AR1) は、因果推論の連鎖と軌道計画を統合する視覚言語モデルである。
また,AR1は,軌道のみのベースラインに比べて,難問の計画精度が12%向上することを示した。
今後のアップデートで、AR1モデルとCoCのサブセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-10-30T01:25:34Z) - Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving [7.921556303360947]
我々は,一段階のエンドツーエンド自動運転のための新しいフレームワークであるMax-V1を紹介する。
我々のフレームワークは、運転の本質的にの順序性と整合した単一パス生成パラダイムを提供する。
実験により,本手法はnuScenesデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-29T05:14:18Z) - DistillDrive: End-to-End Multi-Mode Autonomous Driving Distillation by Isomorphic Hetero-Source Planning Model [23.573720107353868]
エンド・ツー・エンドの知識蒸留に基づく自律運転モデルであるDistillDriveを紹介した。
教師モデルとして構造化シーン表現に基づく計画モデルを用いる。
我々は, 衝突速度を50%低減し, nuScenes と NAVSIM のデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2025-08-07T13:54:35Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - FullLoRA: Efficiently Boosting the Robustness of Pretrained Vision Transformers [72.83770102062141]
Vision Transformer (ViT) モデルは、様々なコンピュータビジョンタスクにおいて徐々に主流になりつつある。
既存の大きなモデルは、トレーニング中のパフォーマンスを優先する傾向があり、ロバストさを無視する可能性がある。
従来のLoRAモジュールよりも前に学習可能なレイヤ正規化を取り入れた新しいLNLoRAモジュールを開発した。
学習可能なLNLoRAモジュールをViTモデルの主要コンポーネントに組み込むことにより,FullLoRAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T14:08:39Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。