論文の概要: Visual Implicit Geometry Transformer for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2602.05573v1
- Date: Thu, 05 Feb 2026 11:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.912695
- Title: Visual Implicit Geometry Transformer for Autonomous Driving
- Title(参考訳): 自律走行用視覚インプシシット幾何変換器
- Authors: Arsenii Shirokov, Mikhail Kuznetsov, Danila Stepochkin, Egor Evdokimov, Daniil Glazkov, Nikolay Patakin, Anton Konushin, Dmitry Senushkin,
- Abstract要約: 自律走行幾何学モデルである視覚インプリシット幾何変換器(ViGT)を導入する。
ViGTは、ドメイン固有の要件に対処する鳥眼ビュー(BEV)において、連続した3D占有領域を推定する。
5つの大規模自律走行データセットを混合してモデルをトレーニングすることで、我々のアプローチのスケーラビリティと一般化性を検証する。
- 参考スコア(独自算出の注目度): 7.795200422563638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Visual Implicit Geometry Transformer (ViGT), an autonomous driving geometric model that estimates continuous 3D occupancy fields from surround-view camera rigs. ViGT represents a step towards foundational geometric models for autonomous driving, prioritizing scalability, architectural simplicity, and generalization across diverse sensor configurations. Our approach achieves this through a calibration-free architecture, enabling a single model to adapt to different sensor setups. Unlike general-purpose geometric foundational models that focus on pixel-aligned predictions, ViGT estimates a continuous 3D occupancy field in a birds-eye-view (BEV) addressing domain-specific requirements. ViGT naturally infers geometry from multiple camera views into a single metric coordinate frame, providing a common representation for multiple geometric tasks. Unlike most existing occupancy models, we adopt a self-supervised training procedure that leverages synchronized image-LiDAR pairs, eliminating the need for costly manual annotations. We validate the scalability and generalizability of our approach by training our model on a mixture of five large-scale autonomous driving datasets (NuScenes, Waymo, NuPlan, ONCE, and Argoverse) and achieving state-of-the-art performance on the pointmap estimation task, with the best average rank across all evaluated baselines. We further evaluate ViGT on the Occ3D-nuScenes benchmark, where ViGT achieves comparable performance with supervised methods. The source code is publicly available at \href{https://github.com/whesense/ViGT}{https://github.com/whesense/ViGT}.
- Abstract(参考訳): 本研究では、周囲のカメラリグから連続した3次元占有場を推定する自律走行幾何学モデルである視覚インプリシット幾何変換器(ViGT)を紹介する。
ViGTは、自律運転のための基本的な幾何学モデル、スケーラビリティの優先順位付け、アーキテクチャの単純さ、さまざまなセンサー構成の一般化に向けたステップである。
われわれのアプローチでは、キャリブレーションのないアーキテクチャでこれを実現し、単一のモデルが異なるセンサー設定に適応できるようにする。
ピクセル整列予測に焦点をあてた汎用幾何学的基礎モデルとは異なり、ViGTはドメイン固有の要求に対処する鳥眼ビュー(BEV)において連続した3D占有領域を推定する。
ViGTは自然に複数のカメラビューから1つの座標フレームに幾何学を推論し、複数の幾何学的タスクの共通表現を提供する。
既存のほとんどの占有モデルとは異なり、私たちは、同期画像-LiDARペアを利用するセルフ教師付きトレーニング手順を採用し、コストのかかる手動アノテーションを不要にします。
我々は,大規模自動運転データセット(NuScenes,Waymo,NuPlan,ONCE,Argoverse)を混合したモデルを用いて,提案手法のスケーラビリティと一般化性を検証し,ポイントマップ推定タスクにおける最先端性能を実現する。
Occ3D-nuScenesベンチマークでは,ViGTが教師付き手法で同等の性能を発揮する。
ソースコードは \href{https://github.com/whesense/ViGT}{https://github.com/whesense/ViGT} で公開されている。
関連論文リスト
- GPA-VGGT:Adapting VGGT to Large Scale Localization by Self-Supervised Learning with Geometry and Physics Aware Loss [15.633839321933385]
近年のVisual Geometry Grounded Transformer (VGGT) モデルの進歩は、カメラのポーズ推定と3次元再構成において大きな可能性を秘めている。
これらのモデルは通常、トレーニングのために真実のラベルを頼りにしており、ラベルのない、目に見えないシーンに適応する際の課題を提起している。
本稿では,VGGTをラベルのないデータで訓練する自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-23T16:46:59Z) - DVGT: Driving Visual Geometry Transformer [63.38483879291505]
駆動対象の高密度幾何知覚モデルは、異なるシナリオやカメラ構成に適応することができる。
提案するドライビング・ビジュアル・ジオメトリ・トランスフォーマ (DVGT) は, 広義の高密度な3Dポイントマップを, 複数視点の視覚入力の列から再構成する。
DVGTには、任意のカメラ構成のフレキシブルな処理を可能にする、明示的な3D幾何学的事前処理がない。
論文 参考訳(メタデータ) (2025-12-18T18:59:57Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - DriveVGGT: Visual Geometry Transformer for Autonomous Driving [50.5036123750788]
DriveVGGTは、自動運転データ用に特別に設計された、スケール対応の4D再構成フレームワークである。
マルチカメラ映像を個別に処理するための時間的ビデオアテンション(TVA)モジュールを提案する。
そこで本研究では,正規化された相対ポーズ埋め込みによるウィンドウアテンションを実現するため,マルチカメラ・コンセントレンシ・アテンション(MCA)モジュールを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:40:43Z) - UNO: Unified Self-Supervised Monocular Odometry for Platform-Agnostic Deployment [22.92093036869778]
多様な環境にまたがるロバストかつ姿勢推定を可能にする統合ビジュアル・オドメトリー・フレームワークであるUNOを提案する。
われわれのアプローチは、自動運転車、ドローン、移動ロボット、ハンドヘルドデバイスなど、さまざまな現実のシナリオを効果的に一般化する。
提案手法を3つの主要なベンチマークデータセット上で広範囲に評価する。
論文 参考訳(メタデータ) (2025-06-08T06:30:37Z) - VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。
ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-03-14T17:59:47Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。