論文の概要: Orion-Lite: Distilling LLM Reasoning into Efficient Vision-Only Driving Models
- arxiv url: http://arxiv.org/abs/2604.08266v1
- Date: Thu, 09 Apr 2026 13:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.948386
- Title: Orion-Lite: Distilling LLM Reasoning into Efficient Vision-Only Driving Models
- Title(参考訳): Orion-Lite: 効率的な視覚専用駆動モデルへのLCMの蒸留
- Authors: Jing Gu, Niccolò Cavagnero, Gijs Dubbelman,
- Abstract要約: 大規模言語モデル(LLM)をコンパクトな駆動モデルに拡張することは説得力のある解決策である。
我々は、視覚のみの効率的な学生モデル textbfOrion-Lite が、その巨大なVLA教師であるORION よりも優れていることを実証した。
- 参考スコア(独自算出の注目度): 16.98212985592303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging the general world knowledge of Large Language Models (LLMs) holds significant promise for improving the ability of autonomous driving systems to handle rare and complex scenarios. While integrating LLMs into Vision-Language-Action (VLA) models has yielded state-of-the-art performance, their massive parameter counts pose severe challenges for latency-sensitive and energy-efficient deployment. Distilling LLM knowledge into a compact driving model offers a compelling solution to retain these reasoning capabilities while maintaining a manageable computational footprint. Although previous works have demonstrated the efficacy of distillation, these efforts have primarily focused on relatively simple scenarios and open-loop evaluations. Therefore, in this work, we investigate LLM distillation in more complex, interactive scenarios under closed-loop evaluation. We demonstrate that through a combination of latent feature distillation and ground-truth trajectory supervision, an efficient vision-only student model \textbf{Orion-Lite} can even surpass the performance of its massive VLA teacher, ORION. Setting a new state-of-the-art on the rigorous Bench2Drive benchmark, with a Driving Score of 80.6. Ultimately, this reveals that vision-only architectures still possess significant, untapped potential for high-performance reactive planning.
- Abstract(参考訳): LLM(Large Language Models)の一般世界の知識を活用することは、稀で複雑なシナリオを扱う自律運転システムの能力を改善するための大きな約束である。
LLMをVision-Language-Action(VLA)モデルに統合すると、最先端のパフォーマンスが得られるが、その膨大なパラメータ数は、レイテンシに敏感でエネルギー効率のよいデプロイメントに深刻な課題をもたらす。
LLMの知識をコンパクトな駆動モデルに拡張することで、管理可能な計算フットプリントを維持しながら、これらの推論能力を維持できる魅力的なソリューションを提供する。
従来の研究は蒸留の有効性を示したが、これらの取り組みは主に比較的単純なシナリオとオープンループの評価に焦点を当ててきた。
そこで本研究では, 閉ループ評価において, より複雑で対話的なシナリオにおけるLCM蒸留について検討する。
提案手法は,高効率な視覚のみの学生モデルである「textbf{Orion-Lite}」を,潜在的特徴蒸留と地中軌道監督を組み合わせることで,VLA教師のORIONを超越できることを示した。
厳格なBench2Driveベンチマークで、ドライビングスコアが80.6で新しい最先端を設定。
最終的にこれは、視覚のみのアーキテクチャが、ハイパフォーマンスなリアクティブ計画において、重要で未解決の可能性を秘めていることを示している。
関連論文リスト
- On-Policy Distillation of Language Models for Autonomous Vehicle Motion Planning [3.2748787252933442]
大型言語モデル(LLM)は、最近、自動運転車の運動計画に強い可能性を実証している。
本研究では,大規模LLMからより小さく,より展開可能な学生モデルへ,運動計画の知識を効果的に伝達する方法について検討する。
論文 参考訳(メタデータ) (2026-04-09T08:06:19Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving [13.136505955569875]
VLM(Vision-Language Models)は、エンドツーエンドの自動運転において大きな可能性を実証している。
光EMMA(Lightweight End-to-End Multimodal Model for autonomous driving)を紹介する。
論文 参考訳(メタデータ) (2025-05-01T04:12:41Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。