論文の概要: DriveVGGT: Visual Geometry Transformer for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.22264v1
- Date: Thu, 27 Nov 2025 09:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.488652
- Title: DriveVGGT: Visual Geometry Transformer for Autonomous Driving
- Title(参考訳): DriveVGGT: 自律運転用ビジュアル幾何学変換器
- Authors: Xiaosong Jia, Yanhao Liu, Junqi You, Renqiu Xia, Yu Hong, Junchi Yan,
- Abstract要約: DriveVGGTは、自動運転データ用に特別に設計された、スケール対応の4D再構成フレームワークである。
マルチカメラ映像を個別に処理するための時間的ビデオアテンション(TVA)モジュールを提案する。
そこで本研究では,正規化された相対ポーズ埋め込みによるウィンドウアテンションを実現するため,マルチカメラ・コンセントレンシ・アテンション(MCA)モジュールを提案する。
- 参考スコア(独自算出の注目度): 50.5036123750788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feed-forward reconstruction has recently gained significant attention, with VGGT being a notable example. However, directly applying VGGT to autonomous driving (AD) systems leads to sub-optimal results due to the different priors between the two tasks. In AD systems, several important new priors need to be considered: (i) The overlap between camera views is minimal, as autonomous driving sensor setups are designed to achieve coverage at a low cost. (ii) The camera intrinsics and extrinsics are known, which introduces more constraints on the output and also enables the estimation of absolute scale. (iii) Relative positions of all cameras remain fixed though the ego vehicle is in motion. To fully integrate these priors into a feed-forward framework, we propose DriveVGGT, a scale-aware 4D reconstruction framework specifically designed for autonomous driving data. Specifically, we propose a Temporal Video Attention (TVA) module to process multi-camera videos independently, which better leverages the spatiotemporal continuity within each single-camera sequence. Then, we propose a Multi-camera Consistency Attention (MCA) module to conduct window attention with normalized relative pose embeddings, aiming to establish consistency relationships across different cameras while restricting each token to attend only to nearby frames. Finally, we extend the standard VGGT heads by adding an absolute scale head and an ego vehicle pose head. Experiments show that DriveVGGT outperforms VGGT, StreamVGGT, fastVGGT on autonomous driving dataset while extensive ablation studies verify effectiveness of the proposed designs.
- Abstract(参考訳): 近年,VGGTが顕著な例であるフィードフォワード再建が注目されている。
しかしながら、VGGTを自律運転(AD)システムに直接適用すると、2つのタスク間の相違により、準最適結果が得られる。
ADシステムでは、いくつかの重要な新しい事前を考慮する必要がある。
i) カメラビュー間の重なり合いは最小限であり, 自律走行センサのセットアップは低コストでカバレッジを実現するように設計されている。
(II) カメラの内在性や外在性は知られており, 出力に対する制約が増大し, 絶対スケールの推定が可能となった。
三 すべてのカメラの相対位置は、エゴ車両が動いていますが、固定されているままです。
フィードフォワードフレームワークにこれらの先行情報を完全に組み込むために,自律運転データに特化して設計された大規模4D再構成フレームワークであるDriveVGGTを提案する。
具体的には,マルチカメラ映像を個別に処理するための時間的ビデオアテンション(TVA)モジュールを提案する。
そこで本研究では,複数のカメラ間の整合性関係の確立を目標とし,近隣フレームにのみ出席するトークンを制限したマルチカメラ一貫性注意(MCA)モジュールを提案する。
最後に、絶対スケールヘッドとエゴ車両ポーズヘッドを追加することで、標準VGGTヘッドを拡張する。
実験の結果、DriveVGGTは自動運転データセット上でVGGT、StreamVGGT、fastVGGTより優れており、広範なアブレーション研究により提案された設計の有効性が検証された。
関連論文リスト
- DriveCamSim: Generalizable Camera Simulation via Explicit Camera Modeling for Autonomous Driving [9.882070476776274]
一般化可能なカメラシミュレーションフレームワークDriveCamSimを提案する。
私たちの中心となるイノベーションは、提案されているExplicit Camera Modelingメカニズムにあります。
制御可能な生成のために、既存の条件エンコーディングおよびインジェクションパイプラインに固有の情報損失の問題を同定する。
論文 参考訳(メタデータ) (2025-05-26T08:50:15Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z) - VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for
Camera-based 3D Object Detection [17.22491199725569]
VIC3Dは、車両と交通インフラの両方から多視点カメラを利用する。
我々は、新しい3Dオブジェクト検出フレームワーク、Vines-Infrastructure Multi-view Intermediate fusion (VIMI)を提案する。
VIMIは15.61%のAP_3Dと21.44%のAP_BEVを新しいVIC3DデータセットであるDAIR-V2X-Cで達成している。
論文 参考訳(メタデータ) (2023-03-20T09:56:17Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。