論文の概要: LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction
- arxiv url: http://arxiv.org/abs/2601.05611v1
- Date: Fri, 09 Jan 2026 08:06:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.904958
- Title: LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction
- Title(参考訳): LatentVLA:潜在行動予測による自律走行のための効率的な視覚言語モデル
- Authors: Chengen Xie, Bin Sun, Tianyu Li, Junjie Wu, Zhihui Hao, XianPeng Lang, Hongyang Li,
- Abstract要約: 大規模データセットでトレーニングされたエンドツーエンドの自律運転モデルは、一般的なシナリオではうまく機能するが、稀で長い尾の状況では苦労する。
近年のVision-Language-Action(VLA)モデルは、事前訓練されたビジョンモデルから幅広い知識を活用して、この制限に対処している。
言語アノテーションを使わずにVLAモデルをトレーニングするために,自己教師付き潜在動作予測を用いた新しいフレームワークであるLatentVLAを提案する。
- 参考スコア(独自算出の注目度): 19.57998167905048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end autonomous driving models trained on largescale datasets perform well in common scenarios but struggle with rare, long-tail situations due to limited scenario diversity. Recent Vision-Language-Action (VLA) models leverage broad knowledge from pre-trained visionlanguage models to address this limitation, yet face critical challenges: (1) numerical imprecision in trajectory prediction due to discrete tokenization, (2) heavy reliance on language annotations that introduce linguistic bias and annotation burden, and (3) computational inefficiency from multi-step chain-of-thought reasoning hinders real-time deployment. We propose LatentVLA, a novel framework that employs self-supervised latent action prediction to train VLA models without language annotations, eliminating linguistic bias while learning rich driving representations from unlabeled trajectory data. Through knowledge distillation, LatentVLA transfers the generalization capabilities of VLA models to efficient vision-based networks, achieving both robust performance and real-time efficiency. LatentVLA establishes a new state-of-the-art on the NAVSIM benchmark with a PDMS score of 92.4 and demonstrates strong zeroshot generalization on the nuScenes benchmark.
- Abstract(参考訳): 大規模データセットでトレーニングされたエンドツーエンドの自律運転モデルは、一般的なシナリオではうまく機能するが、シナリオの多様性が制限されているため、稀で長い尾の状況で苦労する。
最近のVision-Language-Action(VLA)モデルは、事前学習された視覚言語モデルからの幅広い知識を活用して、この制限に対処するが、重要な課題に直面している。
言語アノテーションを使わずにVLAモデルを訓練し,ラベルのない軌道データからリッチな駆動表現を学習しながら言語バイアスを除去する,自己教師付き潜在動作予測を用いた新しいフレームワークであるLatntVLAを提案する。
知識蒸留により、LatentVLAはVLAモデルの一般化能力を効率的なビジョンベースネットワークに転送し、堅牢な性能とリアルタイムの効率を達成する。
LatentVLAは、PDMSスコアが92.4のNAVSIMベンチマークで新しい最先端技術を確立し、nuScenesベンチマークで強力なゼロショットの一般化を示す。
関連論文リスト
- dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - Reasoning-VLA: A Fast and General Vision-Language-Action Reasoning Model for Autonomous Driving [46.99350914451702]
Reasoning-VLAは、最先端性能、優れた一般化能力、そしてこれまでに報告された優れた推論速度を実現する。
8つの公開可能な自律運転データセットを、標準化された言語推論ベースの、モデルトレーニングのための使いやすいデータフォーマットに統合します。
論文 参考訳(メタデータ) (2025-11-25T04:40:11Z) - Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。
Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。
提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T05:51:22Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。