論文の概要: Grounding Driving VLA via Inverse Kinematics
- arxiv url: http://arxiv.org/abs/2605.21061v1
- Date: Wed, 20 May 2026 11:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.650745
- Title: Grounding Driving VLA via Inverse Kinematics
- Title(参考訳): 逆運動学による地上走行VLA
- Authors: Junsung Park, Hyunjung Shim,
- Abstract要約: トラジェクトリリカバリは,境界条件として,電流と将来の視覚状態の両方を必要とすることを示す。
我々は,逆キネマティクス解法を用いて駆動VLAを再設計する。
この単純な処方令だけで、0.5Bスケールのモデルは視覚的接地を回復し、7B--8B VLAに匹敵する軌道計画性能に達する。
- 参考スコア(独自算出の注目度): 32.65844881404964
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing Driving VLAs predict trajectories while largely ignoring their visual tokens -- a phenomenon we trace not to insufficient training but to a structurally ill-posed task formulation. We show that trajectory recovery, when viewed through the lens of inverse kinematics, requires both a current and a future visual state as boundary conditions; existing VLAs supply only the former, which encourages the model to shortcut through ego status and text commands alone. To address this, we re-design Driving VLA in the style of an inverse kinematics solver. First, a next visual state prediction objective that requires the LLM to predict the future visual scene provides dense visual supervision and suppresses shortcut paths. Second, a separate Inverse Kinematics Network (a cross-attention-based conditional diffusion model) that takes only the current and future visual states as input is designed to suppress reliance on ego status and textual shortcuts during trajectory decoding. With this simple prescription alone, our 0.5B-scale model recovers visual grounding and reaches trajectory planning performance comparable to 7B--8B VLAs more than an order of magnitude larger, on both the closed-loop NAVSIM-v2 and the nuScenes benchmarks. Extensive analysis further shows that this improvement stems from a recovered ability to exploit visual features, with the effect being most pronounced in dynamic driving situations such as turning.
- Abstract(参考訳): 既存のドライビングVLAは、視覚トークンを無視しながら軌道を予測します。
トラジェクタリカバリ(トラジェクタリカバリ)は、逆運動学のレンズを通して見る場合、現在の状態と将来の視覚状態の両方を境界条件として必要であり、既存のVLAは前者のみに供給し、エゴ状態とテキストコマンドのみをショートカットすることを奨励する。
そこで我々は,逆キネマティクス解法を用いて駆動VLAを再設計する。
まず、LLMが将来の視覚シーンを予測する必要がある次の視覚状態予測目標が、密集した視覚的監視を提供し、ショートカットパスを抑制する。
第二に、インプットとして現在の視覚状態と将来の視覚状態のみを取り込み、軌跡復号時のエゴ状態とテキストショートカットへの依存を抑制するように設計された逆キネマティクスネットワーク(クロスアテンションベースの条件拡散モデル)である。
我々の0.5Bスケールのモデルは、この単純な処方薬だけで視覚的接地を回復し、7B--8B VLAに匹敵する軌道計画性能を、クローズループNAVSIM-v2とnuScenesベンチマークの両方で達成する。
徹底的な分析により、この改善は視覚的特徴を活用できる回復能力に起因し、回転のような動的な運転状況において最も顕著な効果が示される。
関連論文リスト
- MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving [54.57163800903507]
我々は、自動運転のための最初の統合ストリーミングVLAアーキテクチャであるMindVLA-U1を紹介する。
統一されたVLMバックボーンは、1つの共有表現に1つのフォワードパスでAR言語トークンとフローマッチングされた連続的なアクショントラジェクトリを生成する。
ロングテールのWOD-E2Eベンチマークでは、MindVLA-U1が経験豊富な人間のドライバーを初めて上回った。
論文 参考訳(メタデータ) (2026-05-12T18:09:42Z) - FlowAD: Ego-Scene Interactive Modeling for Autonomous Driving [20.991905328262746]
本稿では,新しいエゴシーン対話型モデリングパラダイムを提案する。
人間の認識にインスパイアされたこのパラダイムは、エゴ-車両に対するシーンフローとして、エゴ-シーンの相互作用を表現している。
その内部では、エゴ誘導シーン分割がまず基本的なフローユニットを構築してシーンフローを定量化する。
そして、フロー単位に基づいて、空間的および時間的フロー予測を行い、シーンフローのダイナミクスをモデル化する。
論文 参考訳(メタデータ) (2026-03-11T16:28:53Z) - FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model [73.03346643967309]
我々は、効果的な共同運動予測モデルには、時間的連続性と視覚的条件による監督的疎結合の両方が必要であると論じる。
FutureVLAは、視覚情報と運動情報を最初に分離することで、関節振動子埋め込みを抽出するように設計されている。
訓練後の段階において、我々は遅延埋め込みアライメント戦略を採用し、様々な下流VLAモデルによりこれらの時間的先行を内部化することができる。
論文 参考訳(メタデータ) (2026-03-11T12:39:55Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution [96.25314747309811]
将来的なシーンの進化と軌道計画を共同でモデル化する,新たなエンドツーエンドフレームワークであるSeerDriveを紹介する。
本手法はまず,周辺環境の動態を予測するために,将来の鳥眼ビュー(BEV)の表現を予測する。
2つの重要な要素がこれを可能にする:(1)予測されたBEV機能を軌道プランナーに注入する将来対応計画、(2)反復的なシーンモデリングと車両計画。
論文 参考訳(メタデータ) (2025-10-13T07:41:47Z) - FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning [75.80110543049783]
我々は,自律運転のための再建型視覚トークンプルーニングフレームワークであるFastDriveVLAを提案する。
VLAモデルの視覚的エンコーダにReconPrunerを訓練するために, 新たなフォアグラウンド逆バックグラウンド再構築戦略を考案した。
提案手法は,異なるプルーニング比におけるnuScenesオープンループ計画ベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2025-07-31T07:55:56Z) - LAformer: Trajectory Prediction for Autonomous Driving with Lane-Aware
Scene Constraints [16.861461971702596]
自律走行の軌道予測は、道路エージェントの運動性を連続的に推論し、シーン制約に従わなければならない。
既存の手法は通常、1段階の軌跡予測モデルに依存し、将来の軌跡を観測された軌跡と融合した風景情報に条件付ける。
本稿では、時間的に密度の高い車線推定モジュールを用いて、HDマップの上位高電位車線セグメントのみを選択するLAformerという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T16:34:16Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。