論文の概要: FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning
- arxiv url: http://arxiv.org/abs/2507.23318v1
- Date: Thu, 31 Jul 2025 07:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.233626
- Title: FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning
- Title(参考訳): FastDriveVLA: プラグイン・アンド・プレイによる効率的なエンド・ツー・エンド運転
- Authors: Jiajun Cao, Qizhe Zhang, Peidong Jia, Xuhui Zhao, Bo Lan, Xiaoan Zhang, Xiaobao Wei, Sixiang Chen, Zhuo Li, Yang Wang, Liyun Li, Xianming Liu, Ming Lu, Shanghang Zhang,
- Abstract要約: 我々は,自律運転のための再建型視覚トークンプルーニングフレームワークであるFastDriveVLAを提案する。
VLAモデルの視覚的エンコーダにReconPrunerを訓練するために, 新たなフォアグラウンド逆バックグラウンド再構築戦略を考案した。
提案手法は,異なるプルーニング比のnuScenesクローズドループ計画ベンチマークの最先端結果を実現する。
- 参考スコア(独自算出の注目度): 38.739266351145986
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models have demonstrated significant potential in complex scene understanding and action reasoning, leading to their increasing adoption in end-to-end autonomous driving systems. However, the long visual tokens of VLA models greatly increase computational costs. Current visual token pruning methods in Vision-Language Models (VLM) rely on either visual token similarity or visual-text attention, but both have shown poor performance in autonomous driving scenarios. Given that human drivers concentrate on relevant foreground areas while driving, we assert that retaining visual tokens containing this foreground information is essential for effective decision-making. Inspired by this, we propose FastDriveVLA, a novel reconstruction-based vision token pruning framework designed specifically for autonomous driving. FastDriveVLA includes a plug-and-play visual token pruner called ReconPruner, which prioritizes foreground information through MAE-style pixel reconstruction. A novel adversarial foreground-background reconstruction strategy is designed to train ReconPruner for the visual encoder of VLA models. Once trained, ReconPruner can be seamlessly applied to different VLA models with the same visual encoder without retraining. To train ReconPruner, we also introduce a large-scale dataset called nuScenes-FG, consisting of 241K image-mask pairs with annotated foreground regions. Our approach achieves state-of-the-art results on the nuScenes closed-loop planning benchmark across different pruning ratios.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは複雑なシーン理解とアクション推論において大きな可能性を示しており、エンドツーエンドの自動運転システムに採用されている。
しかしながら、VLAモデルの長い視覚トークンは計算コストを大幅に増加させる。
VLM(Vision-Language Models)における現在の視覚トークンプルーニング手法は、視覚トークンの類似性または視覚テキストの注意に依存するが、どちらも自律運転シナリオでは性能が劣っている。
運転中、人間の運転者が適切な前景領域に集中していることを考えると、この前景情報を含む視覚的トークンの保持は、効果的な意思決定に不可欠である。
これに触発されたFastDriveVLAは、自動運転専用に設計された新しい再構成ベースの視覚トークンプルーニングフレームワークである。
FastDriveVLAにはReconPrunerと呼ばれるプラグアンドプレイのビジュアルトークンプルーナーが含まれている。
VLAモデルの視覚的エンコーダとしてReconPrunerをトレーニングするために,新しい対向型フォアグラウンド・バックグラウンド・コンストラクション戦略を考案した。
トレーニングが完了すると、ReconPrunerは、同じビジュアルエンコーダを持つ異なるVLAモデルに対して、再トレーニングなしでシームレスに適用することができる。
ReconPrunerのトレーニングには,注釈付き前景領域を持つ241KイメージマスクペアからなるnuScenes-FGという大規模データセットも導入する。
提案手法は,異なるプルーニング比のnuScenesクローズドループ計画ベンチマークの最先端結果を実現する。
関連論文リスト
- TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving [10.439455144126617]
TinyDriveは、シナリオ駆動におけるマルチビューVQAのための軽量なVLMである。
本モデルは,マルチスケールビジョンエンコーダとトークンとシーケンスの二重レベル優先順位付け機構を含む2つの重要なコンポーネントから構成される。
TinyDriveは、私たちのカスタムキュレートされたVQAデータセットで最初に評価され、その後、パブリックなDriveLMベンチマークでテストされます。
論文 参考訳(メタデータ) (2025-05-21T14:19:24Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - CASPFormer: Trajectory Prediction from BEV Images with Deformable
Attention [4.9349065371630045]
本研究では,空間化されたBird-Eye-View(BEV)画像からマルチモーダルな動作予測を行うことができるコンテキスト認識シーン予測変換器(CASPFormer)を提案する。
我々のシステムは、BEV画像を生成することができる上流認識モジュールと統合することができる。
我々は、nuScenesデータセット上でモデルを評価し、複数のメトリクスにまたがって最先端に到達していることを示す。
論文 参考訳(メタデータ) (2024-09-26T12:37:22Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Beyond the Field-of-View: Enhancing Scene Visibility and Perception with Clip-Recurrent Transformer [28.326852785609788]
FlowLensアーキテクチャは、光学フローを明示的に採用し、特徴伝達のための新しいクリップリカレントトランスフォーマーを暗黙的に組み込んでいる。
本稿では,自律走行車における視野拡大を目的としたオンライン映像インペインティングの概念を提案する。
オフラインおよびオンラインビデオのインペイントを含む実験とユーザスタディ、さらにはFo-Vの知覚タスクは、Flowsが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2022-11-21T09:34:07Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。