論文の概要: LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.01928v1
- Date: Mon, 02 Mar 2026 14:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.914314
- Title: LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving
- Title(参考訳): LaST-VLA: 自律運転における視線制御のための潜時空間を考える
- Authors: Yuechen Luo, Fang Li, Shaoqing Xu, Yang Ji, Zehan Zhang, Bing Wang, Yuannan Shen, Jianwei Cui, Long Chen, Guang Chen, Hangjun Ye, Zhi-Xin Yang, Fuxi Wen,
- Abstract要約: VLA(Vision-Language-Action)モデルは、認識と計画の統合によって自動運転に革命をもたらした。
明示的なテキスト・オブ・ワット(CoT)への依存は、意味的・知覚的疎結合と知覚的・象徴的対立につながる。
潜在的推論への最近のシフトは、連続的な隠れ空間で考えることによって、これらのボトルネックを回避しようとする。
- 参考スコア(独自算出の注目度): 21.38662345656532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-Language-Action (VLA) models have revolutionized autonomous driving by unifying perception and planning, their reliance on explicit textual Chain-of-Thought (CoT) leads to semantic-perceptual decoupling and perceptual-symbolic conflicts. Recent shifts toward latent reasoning attempt to bypass these bottlenecks by thinking in continuous hidden space. However, without explicit intermediate constraints, standard latent CoT often operates as a physics-agnostic representation. To address this, we propose the Latent Spatio-Temporal VLA (LaST-VLA), a framework shifting the reasoning paradigm from discrete symbolic processing into a physically grounded Latent Spatio-Temporal CoT. By implementing a dual-feature alignment mechanism, we distill geometric constraints from 3D foundation models and dynamic foresight from world models directly into the latent space. Coupled with a progressive SFT training strategy that transitions from feature alignment to trajectory generation, and refined via Reinforcement Learning with Group Relative Policy Optimization (GRPO) to ensure safety and rule compliance. \method~setting a new record on NAVSIM v1 (91.3 PDMS) and NAVSIM v2 (87.1 EPDMS), while excelling in spatial-temporal reasoning on SURDS and NuDynamics benchmarks.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは知覚と計画の統一によって自律運転に革命をもたらしたが、CoT(Designual Textual Chain-of-Thought)への依存は、意味的・知覚的疎結合と知覚的・象徴的対立をもたらす。
潜在的推論への最近のシフトは、連続的な隠れ空間で考えることによって、これらのボトルネックを回避しようとする。
しかし、明示的な中間的制約がなければ、標準潜在CoTはしばしば物理学に依存しない表現として機能する。
これを解決するために、離散シンボル処理から物理基底化されたラテン時空間CoTへ推論パラダイムをシフトするフレームワークであるLaST-VLA(Latent Spatio-Temporal VLA)を提案する。
両機能アライメント機構を実装することにより、3次元基礎モデルから幾何的制約を抽出し、世界モデルから直接潜在空間へ動的フォレストを抽出する。
機能アライメントから軌道生成へ移行する進歩的なSFTトレーニング戦略と結合し、安全とルールコンプライアンスを確保するために、グループ相対政策最適化(GRPO)による強化学習を通じて洗練される。
NAVSIM v1 (91.3 PDMS) と NAVSIM v2 (87.1 EPDMS) の新たな記録を樹立し、SURDS と NuDynamics ベンチマークの時空間推論に優れていた。
関連論文リスト
- VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction [0.0]
VLMFusionOcc3Dは、自律運転における高密度な3Dセマンティック占有率予測のための堅牢なマルチモーダルフレームワークである。
我々は,車両メタデータと気象条件付きプロンプトを利用した動的ゲーティング機構であるWeather-Aware Adaptive Fusionを導入する。
我々のアプローチは、複雑な都市ナビゲーションのためのスケーラブルで堅牢なソリューションを提供するため、挑戦的な気象シナリオにおいて、大幅な改善を実現している。
論文 参考訳(メタデータ) (2026-03-03T05:22:28Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - HiST-VLA: A Hierarchical Spatio-Temporal Vision-Language-Action Model for End-to-End Autonomous Driving [20.266736153749417]
Vision-Language-Action(VLA)モデルは、マルチモーダル理解を通じて自律運転に有望な機能を提供する。
安全クリティカルなシナリオにおけるそれらの利用は、数値推論、弱い3次元空間認識、文脈に対する高い感度を含む固有の制限によって制限されている。
信頼軌道生成用に設計された階層型時空間VLAモデルであるHiST-VLAを提案する。
論文 参考訳(メタデータ) (2026-02-11T07:08:33Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving [44.008287454538596]
視覚言語モデル(VLM)は、クロスモーダルな先行とコモンセンス推論を導入することで、このパラダイムを豊かにする。
現在のVLMベースのプランナは、(i) 個別のテキスト推論と継続的制御のミスマッチ、(ii) 自己回帰的連鎖のデコーディングからの高い遅延、(iii) リアルタイムデプロイメントを制限する非効率または非因果的なプランナである。
テキストから潜在空間へ推論を転送し,それを階層的並列軌道デコーダで結合する統合視覚言語アクションフレームワークColaVLAを提案する。
論文 参考訳(メタデータ) (2025-12-28T14:06:37Z) - TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking [30.955088934475928]
本稿では,空間的推論機構と時間的同定メモリ(TIM)という2つの重要なモジュールによる視覚追跡を具体化する新しいモデルであるTrackVLA++を提案する。
TrackVLA++は、エゴセントリックな設定とマルチカメラ設定の両方で、公開ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-08T15:29:17Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - FlowDrive: Energy Flow Field for End-to-End Autonomous Driving [50.89871153094958]
FlowDriveは、物理的に解釈可能なエネルギーベースのフローフィールドを導入し、セマンティックな前提と安全性をBEV空間にエンコードする新しいフレームワークである。
NAVSIM v2ベンチマークの実験では、FlowDriveが最先端のパフォーマンスを86.3で達成し、安全性と計画品質の両方において以前のベースラインを超えたことが示されている。
論文 参考訳(メタデータ) (2025-09-17T13:51:33Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving [19.81442567260658]
本稿では,VLAを画像で考えることのできる視覚的テンポラルTフレームワークを提案する。
nuScenes と NAVSIM では、FSDrive は精度を改善し、衝突を減らす。
論文 参考訳(メタデータ) (2025-05-23T09:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。