論文の概要: DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale
- arxiv url: http://arxiv.org/abs/2604.00813v1
- Date: Wed, 01 Apr 2026 12:21:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.979753
- Title: DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale
- Title(参考訳): DVGT-2:大規模自動運転のための視覚幾何学的行動モデル(DVGT-2)
- Authors: Sicheng Zuo, Zixun Xie, Wenzhao Zheng, Shaoqing Xu, Fang Li, Hanbing Li, Long Chen, Zhi-Xin Yang, Jiwen Lu,
- Abstract要約: 本稿では,高密度な3次元形状を自律運転のクリティカルキューとして提唱するビジョン・ジオメトリ・アクションのパラダイムを提案する。
本稿では,DVGT-2(Stream Driving Visual Geometry Transformer)を導入し,入力をオンラインに処理し,現行のフレームに対して高密度なジオメトリとトラジェクトリプランニングを共同で出力する。
高速にもかかわらず、DVGT-2は様々なデータセット上で優れた幾何再構成性能を達成する。
- 参考スコア(独自算出の注目度): 63.05446464787182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving has evolved from the conventional paradigm based on sparse perception into vision-language-action (VLA) models, which focus on learning language descriptions as an auxiliary task to facilitate planning. In this paper, we propose an alternative Vision-Geometry-Action (VGA) paradigm that advocates dense 3D geometry as the critical cue for autonomous driving. As vehicles operate in a 3D world, we think dense 3D geometry provides the most comprehensive information for decision-making. However, most existing geometry reconstruction methods (e.g., DVGT) rely on computationally expensive batch processing of multi-frame inputs and cannot be applied to online planning. To address this, we introduce a streaming Driving Visual Geometry Transformer (DVGT-2), which processes inputs in an online manner and jointly outputs dense geometry and trajectory planning for the current frame. We employ temporal causal attention and cache historical features to support on-the-fly inference. To further enhance efficiency, we propose a sliding-window streaming strategy and use historical caches within a certain interval to avoid repetitive computations. Despite the faster speed, DVGT-2 achieves superior geometry reconstruction performance on various datasets. The same trained DVGT-2 can be directly applied to planning across diverse camera configurations without fine-tuning, including closed-loop NAVSIM and open-loop nuScenes benchmarks.
- Abstract(参考訳): エンド・ツー・エンドの自律運転は、スパース認識に基づく従来のパラダイムから、計画を容易にする補助的なタスクとして言語記述の学習に焦点を当てた視覚言語行動モデルへと進化してきた。
本稿では,高密度な3次元形状を自律走行のクリティカルキューとして提唱するビジョン・ジオメトリ・アクション(VGA)パラダイムを提案する。
車両が3Dの世界を走るとき、私たちは密集した3D幾何学が意思決定に最も包括的な情報を提供すると考えている。
しかし、既存の幾何再構成手法(例えばDVGT)は、計算に高価なマルチフレーム入力のバッチ処理に依存しており、オンラインプランニングには適用できない。
そこで我々はDVGT-2 (Stream Driving Visual Geometry Transformer) を導入し, 入力をオンライン的に処理し, 現在のフレームに対して高密度な幾何学と軌道計画を共同で出力する。
我々は時間的因果的注意と歴史的特徴のキャッシュをオンザフライ推論に利用した。
効率をさらに高めるため,繰り返し計算を避けるために,スライドウインドウ・ストリーミング戦略を提案し,一定の間隔で履歴キャッシュを使用する。
高速にもかかわらず、DVGT-2は様々なデータセット上で優れた幾何再構成性能を達成する。
同じ訓練されたDVGT-2は、クローズループNAVSIMやオープンループnuScenesベンチマークなど、微調整なしで様々なカメラ構成の計画に直接適用することができる。
関連論文リスト
- VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving [26.557803260279258]
自律運転のためのクロスビュー3D幾何モデリング能力は自明であるが、既存のビジョンランゲージモデルには本質的にこの能力がない。
本稿では,視覚言語モデルに自律走行のための幾何学的グラウンドリングを用いた新しいアーキテクチャ,VGGDriveを提案する。
論文 参考訳(メタデータ) (2026-02-24T11:33:44Z) - Visual Implicit Geometry Transformer for Autonomous Driving [7.795200422563638]
自律走行幾何学モデルである視覚インプリシット幾何変換器(ViGT)を導入する。
ViGTは、ドメイン固有の要件に対処する鳥眼ビュー(BEV)において、連続した3D占有領域を推定する。
5つの大規模自律走行データセットを混合してモデルをトレーニングすることで、我々のアプローチのスケーラビリティと一般化性を検証する。
論文 参考訳(メタデータ) (2026-02-05T11:54:38Z) - DVGT: Driving Visual Geometry Transformer [63.38483879291505]
駆動対象の高密度幾何知覚モデルは、異なるシナリオやカメラ構成に適応することができる。
提案するドライビング・ビジュアル・ジオメトリ・トランスフォーマ (DVGT) は, 広義の高密度な3Dポイントマップを, 複数視点の視覚入力の列から再構成する。
DVGTには、任意のカメラ構成のフレキシブルな処理を可能にする、明示的な3D幾何学的事前処理がない。
論文 参考訳(メタデータ) (2025-12-18T18:59:57Z) - VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting [47.78433964322689]
VR-Driveは、3Dシーン再構築を共同で学習することで視点一般化に対処する新しいE2E-ADフレームワークである。
我々の結果は、VR-Driveがエンドツーエンドの自動運転システムの現実的な展開のためのスケーラブルで堅牢なソリューションであることを実証している。
論文 参考訳(メタデータ) (2025-10-27T10:49:39Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。