Fugu-MT 論文翻訳(概要): HiST-VLA: A Hierarchical Spatio-Temporal Vision-Language-Action Model for End-to-End Autonomous Driving

論文の概要: HiST-VLA: A Hierarchical Spatio-Temporal Vision-Language-Action Model for End-to-End Autonomous Driving

arxiv url: http://arxiv.org/abs/2602.13329v1
Date: Wed, 11 Feb 2026 07:08:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-17 14:17:27.920776
Title: HiST-VLA: A Hierarchical Spatio-Temporal Vision-Language-Action Model for End-to-End Autonomous Driving
Title（参考訳）: HiST-VLA: エンド・ツー・エンド自動運転のための階層型時空間ビジョンランゲージ・アクションモデル
Authors: Yiru Wang, Zichong Gu, Yu Gao, Anqing Jiang, Zhigang Sun, Shuo Wang, Yuwen Heng, Hao Sun,
Abstract要約: Vision-Language-Action(VLA)モデルは、マルチモーダル理解を通じて自律運転に有望な機能を提供する。安全クリティカルなシナリオにおけるそれらの利用は、数値推論、弱い3次元空間認識、文脈に対する高い感度を含む固有の制限によって制限されている。信頼軌道生成用に設計された階層型時空間VLAモデルであるHiST-VLAを提案する。
参考スコア（独自算出の注目度）: 20.266736153749417
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models offer promising capabilities for autonomous driving through multimodal understanding. However, their utilization in safety-critical scenarios is constrained by inherent limitations, including imprecise numerical reasoning, weak 3D spatial awareness, and high sensitivity to context. To address these challenges, we propose HiST-VLA, a novel Hierarchical Spatio-Temporal VLA model designed for reliable trajectory generation. Our framework enhances 3D spatial and temporal reasoning by integrating geometric awareness with fine-grained driving commands and state history prompting. To ensure computational efficiency, we integrate dynamic token sparsification into the VLA architecture. This approach fuses redundant tokens rather than filtering them, effectively reducing redundancy without sacrificing model performance. Furthermore, we employ a hierarchical transformer-based planner to progressively refine coarse VLA waypoints into fine-grained trajectories. Crucially, the planner utilizes dynamic latent regularization to incorporate language commands, ensuring strict spatial grounding and temporal coherence. Extensive evaluation on the NAVSIM v2 benchmark demonstrates state-of-the-art performance on Navtest, achieving an EPDMS of 88.6, and EPDMS of 50.9 on pseudo closed-loop Navhard benchmark.
Abstract（参考訳）: Vision-Language-Action(VLA)モデルは、マルチモーダル理解を通じて自律運転に有望な機能を提供する。しかし、安全クリティカルなシナリオにおけるそれらの利用は、不正確な数値推論、弱い3次元空間認識、文脈に対する高い感度など、固有の制限によって制限されている。これらの課題に対処するために,信頼軌道生成用に設計された新しい階層型時空間VLAモデルであるHiST-VLAを提案する。我々のフレームワークは、幾何学的認識と微粒な駆動コマンドと状態履歴のプロンプトを統合することで、3次元空間的・時間的推論を強化する。計算効率を確保するため,動的トークンスペーシフィケーションをVLAアーキテクチャに統合する。このアプローチは、それらをフィルタリングするのではなく、冗長トークンを融合させ、モデルのパフォーマンスを犠牲にすることなく、事実上冗長性を減少させる。さらに、階層的なトランスフォーマーベースプランナーを用いて、粗いVLA経路を微粒な軌道に徐々に洗練する。重要なことに、プランナーは動的潜在正規化を利用して言語コマンドを組み込み、厳密な空間的接地と時間的コヒーレンスを確保する。 NAVSIM v2ベンチマークの広範囲な評価は、Navtestの最先端性能を示し、擬似閉ループNavhardベンチマークのEPDMSは88.6、EPDMSは50.9である。

関連論文リスト

VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction [0.0]
VLMFusionOcc3Dは、自律運転における高密度な3Dセマンティック占有率予測のための堅牢なマルチモーダルフレームワークである。我々は,車両メタデータと気象条件付きプロンプトを利用した動的ゲーティング機構であるWeather-Aware Adaptive Fusionを導入する。我々のアプローチは、複雑な都市ナビゲーションのためのスケーラブルで堅牢なソリューションを提供するため、挑戦的な気象シナリオにおいて、大幅な改善を実現している。
論文参考訳（メタデータ） (2026-03-03T05:22:28Z)
LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving [21.38662345656532]
VLA(Vision-Language-Action)モデルは、認識と計画の統合によって自動運転に革命をもたらした。明示的なテキスト・オブ・ワット(CoT)への依存は、意味的・知覚的疎結合と知覚的・象徴的対立につながる。潜在的推論への最近のシフトは、連続的な隠れ空間で考えることによって、これらのボトルネックを回避しようとする。
論文参考訳（メタデータ） (2026-03-02T14:42:36Z)
SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文参考訳（メタデータ） (2026-01-09T08:55:42Z)
ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving [44.008287454538596]
視覚言語モデル(VLM)は、クロスモーダルな先行とコモンセンス推論を導入することで、このパラダイムを豊かにする。現在のVLMベースのプランナは、(i) 個別のテキスト推論と継続的制御のミスマッチ、(ii) 自己回帰的連鎖のデコーディングからの高い遅延、(iii) リアルタイムデプロイメントを制限する非効率または非因果的なプランナである。テキストから潜在空間へ推論を転送し,それを階層的並列軌道デコーダで結合する統合視覚言語アクションフレームワークColaVLAを提案する。
論文参考訳（メタデータ） (2025-12-28T14:06:37Z)
VLA-AN: An Efficient and Onboard Vision-Language-Action Framework for Aerial Navigation in Complex Environments [12.689250855332569]
VLA-ANは、複雑な環境での自律ドローンナビゲーションに特化したフレームワークである。既存の大型航法モデルの4つの大きな制限に対処する。シングルタスクの成功率は98.1%に達する。
論文参考訳（メタデータ） (2025-12-17T10:02:55Z)
Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。 Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文参考訳（メタデータ） (2025-10-27T03:52:45Z)
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文参考訳（メタデータ） (2025-09-24T13:35:15Z)
FlowDrive: Energy Flow Field for End-to-End Autonomous Driving [50.89871153094958]
FlowDriveは、物理的に解釈可能なエネルギーベースのフローフィールドを導入し、セマンティックな前提と安全性をBEV空間にエンコードする新しいフレームワークである。 NAVSIM v2ベンチマークの実験では、FlowDriveが最先端のパフォーマンスを86.3で達成し、安全性と計画品質の両方において以前のベースラインを超えたことが示されている。
論文参考訳（メタデータ） (2025-09-17T13:51:33Z)
SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文参考訳（メタデータ） (2025-06-15T05:04:17Z)
ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文参考訳（メタデータ） (2025-06-09T03:14:04Z)
SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文参考訳（メタデータ） (2025-05-22T15:44:30Z)
Trajectory Planning for Autonomous Vehicles Using Hierarchical Reinforcement Learning [21.500697097095408]
不確実かつ動的条件下で安全な軌道を計画することは、自律運転問題を著しく複雑にする。 RRT(Rapidly Exploring Random Trees)のような現在のサンプリングベース手法は、高い計算コストのため、この問題には理想的ではない。軌道計画のための階層型強化学習構造とPID(Proportional-Integral-Derivative)コントローラを提案する。
論文参考訳（メタデータ） (2020-11-09T20:49:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。