論文の概要: SpanVLA: Efficient Action Bridging and Learning from Negative-Recovery Samples for Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2604.19710v1
- Date: Tue, 21 Apr 2026 17:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.903316
- Title: SpanVLA: Efficient Action Bridging and Learning from Negative-Recovery Samples for Vision-Language-Action Model
- Title(参考訳): SpanVLA:視覚・言語・アクションモデルのための負の回復サンプルからの効果的なアクションブリッジングと学習
- Authors: Zewei Zhou, Ruining Yang, Xuewei, Qi, Yiluan Guo, Sherry X. Chen, Tao Feng, Kateryna Pistunova, Yishan Shen, Lili Su, Jiaqi Ma,
- Abstract要約: VLA(Vision-Language-Action)モデルは、世界知識と推論能力を活用するための有望な自動運転パラダイムを提供する。
既存のVLAモデルは、自動回帰生成フレームワークを使用してアクション生成の高レイテンシに悩まされることが多い。
本稿では、自動回帰推論とフローマッチングアクションエキスパートを統合した、新しいエンドツーエンド自動運転フレームワークであるSpanVLAを提案する。
- 参考スコア(独自算出の注目度): 16.077387927185917
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models offer a promising autonomous driving paradigm for leveraging world knowledge and reasoning capabilities, especially in long-tail scenarios. However, existing VLA models often struggle with the high latency in action generation using an autoregressive generation framework and exhibit limited robustness. In this paper, we propose SpanVLA, a novel end-to-end autonomous driving framework, integrating an autoregressive reasoning and a flow-matching action expert. First, SpanVLA introduces an efficient bridge to leverage the vision and reasoning guidance of VLM to efficiently plan future trajectories using a flow-matching policy conditioned on historical trajectory initialization, which significantly reduces inference time. Second, to further improve the performance and robustness of the SpanVLA model, we propose a GRPO-based post-training method to enable the VLA model not only to learn from positive driving samples but also to learn how to avoid the typical negative behaviors and learn recovery behaviors. We further introduce mReasoning, a new real-world driving reasoning dataset, focusing on complex, reasoning-demanding scenarios and negative-recovery samples. Extensive experiments on the NAVSIM (v1 and v2) demonstrate the competitive performance of the SpanVLA model. Additionally, the qualitative results across diverse scenarios highlight the planning performance and robustness of our model.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、特にロングテールシナリオにおいて、世界の知識と推論能力を活用するための有望な自律運転パラダイムを提供する。
しかしながら、既存のVLAモデルは、自動回帰生成フレームワークを使用して、アクション生成の高レイテンシに苦しむことが多く、ロバスト性に制限がある。
本稿では,自動回帰推論とフローマッチングアクションエキスパートを統合した,新しいエンドツーエンド自動運転フレームワークであるSpanVLAを提案する。
第一に、SpanVLAは、VLMのビジョンと推論指導を利用して、歴史的軌跡の初期化を前提としたフローマッチングポリシーを用いて、将来の軌跡を効率的に計画する効率的なブリッジを導入し、推論時間を著しく短縮する。
第2に,SpanVLAモデルの性能とロバスト性をさらに向上するため,VLAモデルを正の駆動サンプルから学習するだけでなく,典型的な負の挙動を回避し,回復挙動を学習するためのGRPOベースのポストトレーニング手法を提案する。
さらに、複雑な推論要求シナリオと負の回復サンプルに焦点を当てた、新しい現実世界の駆動推論データセットであるmReasoningを紹介します。
NAVSIM(v1とv2)の大規模な実験は、SpanVLAモデルの競争性能を実証している。
さらに、さまざまなシナリオにわたる質的な結果は、計画のパフォーマンスとモデルの堅牢性を強調します。
関連論文リスト
- Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action [62.70893433854428]
推論能力を維持しつつ、慎重に設計した後処理により動作性能を向上させるDualVLAを提案する。
実験の結果、DualVLAはSimplerEnvの平均成功率は61.0であり、8つの競合するマルチモーダルベンチマークの平均スコアは65.4であることがわかった。
論文 参考訳(メタデータ) (2025-11-27T06:03:53Z) - Reasoning-VLA: A Fast and General Vision-Language-Action Reasoning Model for Autonomous Driving [46.99350914451702]
Reasoning-VLAは、最先端性能、優れた一般化能力、そしてこれまでに報告された優れた推論速度を実現する。
8つの公開可能な自律運転データセットを、標準化された言語推論ベースの、モデルトレーニングのための使いやすいデータフォーマットに統合します。
論文 参考訳(メタデータ) (2025-11-25T04:40:11Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。