論文の概要: FROST-Drive: Scalable and Efficient End-to-End Driving with a Frozen Vision Encoder
- arxiv url: http://arxiv.org/abs/2601.03460v1
- Date: Tue, 06 Jan 2026 23:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.087729
- Title: FROST-Drive: Scalable and Efficient End-to-End Driving with a Frozen Vision Encoder
- Title(参考訳): FROST-Drive:凍結ビジョンエンコーダによるスケーラブルで効率的なエンドツーエンド運転
- Authors: Zeyu Dong, Yimin Zhu, Yu Wu, Yu Sun,
- Abstract要約: 本稿では,VLM(Vision-Language Model)から事前学習したビジョンエンコーダの強力な一般化能力の維持と活用を目的とした新しいE2Eアーキテクチャを提案する。
エンコーダの重みを凍結させることにより、我々の手法はリッチで一般化された世界知識を直接 VLM から駆動タスクに転送する。
この結果から,有能なVLMの広い知識を維持することは,集中的なドメイン固有適応よりも堅牢で一般化可能な駆動性能を実現する上で,より効果的な戦略であることが示唆された。
- 参考スコア(独自算出の注目度): 9.830258914764979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end (E2E) models in autonomous driving aim to directly map sensor inputs to control commands, but their ability to generalize to novel and complex scenarios remains a key challenge. The common practice of fully fine-tuning the vision encoder on driving datasets potentially limits its generalization by causing the model to specialize too heavily in the training data. This work challenges the necessity of this training paradigm. We propose FROST-Drive, a novel E2E architecture designed to preserve and leverage the powerful generalization capabilities of a pretrained vision encoder from a Vision-Language Model (VLM). By keeping the encoder's weights frozen, our approach directly transfers the rich, generalized world knowledge from the VLM to the driving task. Our model architecture combines this frozen encoder with a transformer-based adapter for multimodal fusion and a GRU-based decoder for smooth waypoint generation. Furthermore, we introduce a custom loss function designed to directly optimize for Rater Feedback Score (RFS), a metric that prioritizes robust trajectory planning. We conduct extensive experiments on Waymo Open E2E Dataset, a large-scale datasets deliberately curated to capture the long-tail scenarios, demonstrating that our frozen-encoder approach significantly outperforms models that employ full fine-tuning. Our results provide substantial evidence that preserving the broad knowledge of a capable VLM is a more effective strategy for achieving robust, generalizable driving performance than intensive domain-specific adaptation. This offers a new pathway for developing vision-based models that can better handle the complexities of real-world application domains.
- Abstract(参考訳): 自動運転におけるエンド・ツー・エンド(E2E)モデルは、センサー入力を直接制御コマンドにマッピングすることを目的としているが、新しい複雑なシナリオに一般化する能力は依然として重要な課題である。
データセットを駆動するビジョンエンコーダを完全に微調整する一般的なプラクティスは、モデルをトレーニングデータに過度に専門化させることによって、その一般化を制限する可能性がある。
この仕事は、このトレーニングパラダイムの必要性に挑戦します。
本研究では,VLM(Vision-Language Model)から事前学習したビジョンエンコーダの強力な一般化能力の維持と活用を目的とした,新しいE2EアーキテクチャであるFROST-Driveを提案する。
エンコーダの重みを凍結させることにより、我々の手法はリッチで一般化された世界知識を直接 VLM から駆動タスクに転送する。
我々のモデルアーキテクチャは、この凍結エンコーダとマルチモーダルフュージョンのためのトランスフォーマーベースのアダプタと、スムーズなウェイポイント生成のためのGRUベースのデコーダを組み合わせる。
さらに、ロバストな軌道計画の優先順位を決定する指標であるRater Feedback Score(RFS)を直接最適化するカスタム損失関数を導入する。
我々は、大規模なデータセットであるWaymo Open E2E Datasetの広範な実験を行い、長い尾のシナリオを意図的に収集し、凍結エンコーダのアプローチが完全な微調整を使用するモデルを大幅に上回っていることを実証した。
この結果から,有能なVLMの広い知識を維持することは,集中的なドメイン固有適応よりも堅牢で一般化可能な駆動性能を実現する上で,より効果的な戦略であることが示唆された。
これは、現実世界のアプリケーションドメインの複雑さをよりうまく扱えるビジョンベースのモデルを開発するための新しい経路を提供する。
関連論文リスト
- Towards Efficient and Effective Multi-Camera Encoding for End-to-End Driving [54.85072592658933]
本稿では,自動運転における高ボリュームマルチカメラデータ処理の計算ボトルネックに対処する,効率的かつ効率的なシーンエンコーダFlexを提案する。
設計上,我々のアプローチは幾何学的非依存であり,明快な3次元帰納バイアスに頼ることなく,データから直接コンパクトなシーン表現を学習する。
我々の研究は、データ駆動型共同符号化戦略が将来の自動運転システムにおいて、よりスケーラブルで効率的かつ効果的な経路を提供することを示すために、3Dプリエントが不可欠であるという一般的な仮定に挑戦する。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - Label-Efficient LiDAR Semantic Segmentation with 2D-3D Vision Transformer Adapters [32.21090169762889]
BALViTは、凍結視覚モデルを利用して強力なLiDARエンコーダを学習するためのアモーダル機能エンコーダである。
コードとモデルは、http://balvit.cs.uni-freiburg.deで公開しています。
論文 参考訳(メタデータ) (2025-03-05T09:30:49Z) - EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。
我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。
統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:58Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic
Facial Expression Recognition [47.29528724322795]
MAE-DFERは動的表情を学習するための新しい自己教師型手法である。
大量のラベルのないデータに基づいて、大規模な自己教師付き事前トレーニングを使用する。
常に最先端の教師付きメソッドより優れています。
論文 参考訳(メタデータ) (2023-07-05T12:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。