論文の概要: Reasoning-VLA: A Fast and General Vision-Language-Action Reasoning Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.19912v1
- Date: Tue, 25 Nov 2025 04:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.272043
- Title: Reasoning-VLA: A Fast and General Vision-Language-Action Reasoning Model for Autonomous Driving
- Title(参考訳): Reasoning-VLA: 自律走行のための高速かつ汎用的なビジョンランゲージ・アクション推論モデル
- Authors: Dapeng Zhang, Zhenlong Yuan, Zhangquan Chen, Chih-Ting Liao, Yinda Chen, Fei Shen, Qingguo Zhou, Tat-Seng Chua,
- Abstract要約: Reasoning-VLAは、最先端性能、優れた一般化能力、そしてこれまでに報告された優れた推論速度を実現する。
8つの公開可能な自律運転データセットを、標準化された言語推論ベースの、モデルトレーニングのための使いやすいデータフォーマットに統合します。
- 参考スコア(独自算出の注目度): 46.99350914451702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have recently shown strong decision-making capabilities in autonomous driving. However, existing VLAs often struggle with achieving efficient inference and generalizing to novel autonomous vehicle configurations and driving scenarios. In this paper, we propose Reasoning-VLA, a general and fast action-generation VLA framework. The proposed model employs a set of learnable action queries, initialized via Gaussian sampling from ground-truth trajectories within the training corpus. These learnable queries interact with reasoning-enhanced vision-language features to generate continuous action trajectories in parallel. To promote robust generalization, we consolidate eight publicly available autonomous driving datasets into a standardized, Chain-of-Thought reasoning-based, and easy-to-use data format for model training. Leveraging both supervised learning and reinforcement learning fine-tuning, extensive empirical evaluations across multiple benchmarks demonstrate that Reasoning-VLA achieves state-of-the-art performance, superior generalization capability, and the excellent inference speed reported to date.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、最近自動運転において強力な意思決定能力を示している。
しかしながら、既存のVLAは効率的な推論を達成し、新しい自動運転車の構成や運転シナリオに一般化するのに苦労することが多い。
本稿では,汎用かつ高速なアクション生成VLAフレームワークであるReasoning-VLAを提案する。
提案モデルでは,学習可能な動作クエリのセットを用いて,学習コーパス内の接地トラジェクトリからのガウスサンプリングを初期化する。
これらの学習可能なクエリは推論強化された視覚言語機能と相互作用し、連続的な行動軌跡を並列に生成する。
堅牢な一般化を促進するため、8つの公開可能な自律運転データセットを標準化されたChain-of-Thought推論ベースで、モデルトレーニングのための使いやすいデータフォーマットに統合した。
教師付き学習と強化学習の微調整の両方を活用し、複数のベンチマークで広範な実験的な評価を行った結果、Reasoning-VLAは最先端の性能、優れた一般化能力、そしてこれまでに報告された優れた推論速度を達成した。
関連論文リスト
- Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。
Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。
提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T05:51:22Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - A Survey on Vision-Language-Action Models for Autonomous Driving [26.407082158880204]
VLA(Vision-Language-Action)パラダイムは、視覚知覚、自然言語理解、制御を単一のポリシーに統合する。
自動運転車の研究者たちは、これらの方法を車の領域に積極的に適応させている。
この調査は、VLA for Autonomous Drivingの最初の包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-06-30T16:50:02Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。