論文の概要: LiDAR-VGGT: Cross-Modal Coarse-to-Fine Fusion for Globally Consistent and Metric-Scale Dense Mapping
- arxiv url: http://arxiv.org/abs/2511.01186v1
- Date: Mon, 03 Nov 2025 03:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.099749
- Title: LiDAR-VGGT: Cross-Modal Coarse-to-Fine Fusion for Globally Consistent and Metric-Scale Dense Mapping
- Title(参考訳): LiDAR-VGGT:大域的・大域的高密度マッピングのためのクロスモーダル粗孔核融合
- Authors: Lijie Wang, Lianjie Guo, Ziyi Xu, Qianhao Wang, Fei Gao, Xieyuanli Chen,
- Abstract要約: 大規模で色のついた雲を再構築することは、ロボット工学において重要なタスクであり、知覚、ナビゲーション、シーン理解をサポートする。
We propose LiDAR-VGGT, a novel framework that a LiDAR inertial odometry with the State-of-the-art VGGT model through a two-stage coarse-to-fine fusion pipeline。
複数のデータセットにわたる実験により、LiDAR-VGGTは密度が高く、一貫した色の点雲を達成し、VGGTベースの方法とLIVOベースラインの両方を上回ります。
- 参考スコア(独自算出の注目度): 19.77609066194095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing large-scale colored point clouds is an important task in robotics, supporting perception, navigation, and scene understanding. Despite advances in LiDAR inertial visual odometry (LIVO), its performance remains highly sensitive to extrinsic calibration. Meanwhile, 3D vision foundation models, such as VGGT, suffer from limited scalability in large environments and inherently lack metric scale. To overcome these limitations, we propose LiDAR-VGGT, a novel framework that tightly couples LiDAR inertial odometry with the state-of-the-art VGGT model through a two-stage coarse- to-fine fusion pipeline: First, a pre-fusion module with robust initialization refinement efficiently estimates VGGT poses and point clouds with coarse metric scale within each session. Then, a post-fusion module enhances cross-modal 3D similarity transformation, using bounding-box-based regularization to reduce scale distortions caused by inconsistent FOVs between LiDAR and camera sensors. Extensive experiments across multiple datasets demonstrate that LiDAR-VGGT achieves dense, globally consistent colored point clouds and outperforms both VGGT-based methods and LIVO baselines. The implementation of our proposed novel color point cloud evaluation toolkit will be released as open source.
- Abstract(参考訳): 大規模で色のついた雲を再構築することは、ロボット工学において重要なタスクであり、知覚、ナビゲーション、シーン理解をサポートする。
LiDAR inertial visual odometry (LIVO) の進歩にもかかわらず、その性能は外因性校正に非常に敏感である。
一方、VGGTのような3Dビジョン基礎モデルでは、大規模環境でのスケーラビリティが制限され、本質的にメートル法スケールが欠如している。
これらの制限を克服するために,LiDAR-VGGTを提案する。これはLiDAR慣性オドメトリーと最先端のVGGTモデルとを2段階の粗い核融合パイプラインを通して密結合する新しいフレームワークである。
そして、バウンディングボックスをベースとした正規化により、LiDARとカメラセンサ間の不整合FOVによるスケール歪みを低減することにより、3次元の相互類似性変換を強化する。
複数のデータセットにわたる大規模な実験により、LiDAR-VGGTは密度が高く、一貫した色の点雲を達成し、VGGTベースの方法とLIVOベースラインの両方を上回ります。
提案する新しいカラーポイントクラウド評価ツールキットの実装は、オープンソースとしてリリースされます。
関連論文リスト
- VGGT-X: When VGGT Meets Dense Novel View Synthesis [27.397168758449904]
我々は3次元基礎モデル(3DFM)を高密度新規ビュー合成(NVS)に適用する問題について検討する。
我々の研究は、3DFMを高密度に拡大することは、VRAM負荷を劇的に増加させ、3Dトレーニングを低下させる不完全な出力の2つの基本的な障壁に直面することを明らかにした。
本稿では,1000以上の画像にスケール可能なメモリ効率のよいVGGT実装,VGGT出力向上のための適応的グローバルアライメント,堅牢な3DGSトレーニングプラクティスを取り入れたVGGT-Xを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:59:59Z) - Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis [51.37795317716487]
本稿では,パラメータの少ない事前学習モデルを微調整するAdaptive Point-Prompt Tuning (APPT)法を提案する。
局所幾何学を集約することで原点雲を点埋め込みに変換し、空間的特徴を捉える。
任意のモダリティのソース領域から3Dへの自己アテンションを校正するために,重みを点埋め込みモジュールと共有するプロンプトジェネレータを導入する。
論文 参考訳(メタデータ) (2025-08-30T06:02:21Z) - DIMM: Decoupled Multi-hierarchy Kalman Filter for 3D Object Tracking [50.038098341549095]
状態推定は、高い操作性を持つ3次元物体追跡において困難である。
本稿では,各方向の異なる動きモデルから推定される推定を効果的に組み合わせる新しいフレームワークであるDIMMを提案する。
DIMMは既存の状態推定手法のトラッキング精度を31.61%99.23%向上させる。
論文 参考訳(メタデータ) (2025-05-18T10:12:41Z) - Uplifting Range-View-based 3D Semantic Segmentation in Real-Time with Multi-Sensor Fusion [18.431017678057348]
Range-View(RV)ベースの3Dポイントクラウドセグメンテーションは、そのコンパクトなデータ形式のために広く採用されている。
しかし、RVベースの手法は、隠蔽された点に対して堅牢なセグメンテーションを提供するには不十分である。
我々は新しいLiDARとカメラレンジビューに基づく3Dポイントクラウドセマンティックセマンティックセマンティック手法(LaCRange)を提案する。
提案手法は,リアルタイム性に加えて,nuScenesベンチマークの最先端結果も実現している。
論文 参考訳(メタデータ) (2024-07-12T21:41:57Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - Just Add $100 More: Augmenting NeRF-based Pseudo-LiDAR Point Cloud for Resolving Class-imbalance Problem [12.26293873825084]
本稿では,小クラスのミニチュアや現実世界のオブジェクトのサラウンドビューをキャプチャしたビデオから生成された擬似LiDAR点雲を活用することを提案する。
Pseudo Ground Truth Aug (PGT-Aug) と呼ばれるこの手法は, (i) 2D-to-3Dビュー合成モデルを用いたボリューム3Dインスタンス再構成, (ii)LiDAR強度推定によるオブジェクトレベルドメインアライメント, (iii) 地上情報と地図情報からのコンテキスト認識配置のハイブリッド化という3つのステップから構成される。
論文 参考訳(メタデータ) (2024-03-18T08:50:04Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z) - Range Conditioned Dilated Convolutions for Scale Invariant 3D Object
Detection [41.59388513615775]
本稿では,LiDARデータをそのネイティブ表現(範囲画像)に直接処理する新しい3Dオブジェクト検出フレームワークを提案する。
2D畳み込みは、レンジ画像のコンパクト性から、シーンの高密度LiDARデータを効率的に処理することができる。
論文 参考訳(メタデータ) (2020-05-20T09:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。