論文の概要: DVGT: Driving Visual Geometry Transformer
- arxiv url: http://arxiv.org/abs/2512.16919v1
- Date: Thu, 18 Dec 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.25813
- Title: DVGT: Driving Visual Geometry Transformer
- Title(参考訳): DVGT: ビジュアルジオメトリ変換器
- Authors: Sicheng Zuo, Zixun Xie, Wenzhao Zheng, Shaoqing Xu, Fang Li, Shengyin Jiang, Long Chen, Zhi-Xin Yang, Jiwen Lu,
- Abstract要約: 駆動対象の高密度幾何知覚モデルは、異なるシナリオやカメラ構成に適応することができる。
提案するドライビング・ビジュアル・ジオメトリ・トランスフォーマ (DVGT) は, 広義の高密度な3Dポイントマップを, 複数視点の視覚入力の列から再構成する。
DVGTには、任意のカメラ構成のフレキシブルな処理を可能にする、明示的な3D幾何学的事前処理がない。
- 参考スコア(独自算出の注目度): 63.38483879291505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceiving and reconstructing 3D scene geometry from visual inputs is crucial for autonomous driving. However, there still lacks a driving-targeted dense geometry perception model that can adapt to different scenarios and camera configurations. To bridge this gap, we propose a Driving Visual Geometry Transformer (DVGT), which reconstructs a global dense 3D point map from a sequence of unposed multi-view visual inputs. We first extract visual features for each image using a DINO backbone, and employ alternating intra-view local attention, cross-view spatial attention, and cross-frame temporal attention to infer geometric relations across images. We then use multiple heads to decode a global point map in the ego coordinate of the first frame and the ego poses for each frame. Unlike conventional methods that rely on precise camera parameters, DVGT is free of explicit 3D geometric priors, enabling flexible processing of arbitrary camera configurations. DVGT directly predicts metric-scaled geometry from image sequences, eliminating the need for post-alignment with external sensors. Trained on a large mixture of driving datasets including nuScenes, OpenScene, Waymo, KITTI, and DDAD, DVGT significantly outperforms existing models on various scenarios. Code is available at https://github.com/wzzheng/DVGT.
- Abstract(参考訳): 視覚入力による3次元シーン形状の認識と再構成は、自律運転に不可欠である。
しかし、異なるシナリオやカメラの設定に適応できる、運転目標の密集した幾何学的知覚モデルがまだ欠けている。
このギャップを埋めるために,提案するドライビング・ビジュアル・ジオメトリ・トランスフォーマー (DVGT) を提案する。
まず、DINOバックボーンを用いて各画像の視覚的特徴を抽出し、画像間の幾何学的関係を推定するために、視線内局所的注意、視線横断空間的注意、フレーム横断時間的注意を交互に用いた。
次に、複数のヘッドを用いて、第1フレームの ego 座標における大域点マップをデコードし、各フレームに対して ego のポーズをとる。
正確なカメラパラメータに依存する従来の方法とは異なり、DVGTは、任意のカメラ構成の柔軟な処理を可能にするために、明示的な3D幾何学的事前処理が不要である。
DVGTは、画像シーケンスから直接メートルスケールの幾何学を予測し、外部センサによる後配向を不要にする。
nuScenes、OpenScene、Waymo、KITTI、DDADなど、多数の駆動データセットでトレーニングされたDVGTは、さまざまなシナリオにおいて、既存のモデルよりも大幅に優れています。
コードはhttps://github.com/wzzheng/DVGT.comで入手できる。
関連論文リスト
- VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。
ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-03-14T17:59:47Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - MagicDrive: Street View Generation with Diverse 3D Geometry Control [82.69871576797166]
多様な3D幾何学制御を提供する新しいストリートビュー生成フレームワークであるMagicDriveを紹介した。
私たちの設計では、複数のカメラビュー間の一貫性を確保するために、クロスビューアテンションモジュールが組み込まれています。
論文 参考訳(メタデータ) (2023-10-04T06:14:06Z) - Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。