論文の概要: An Evaluation of DUSt3R/MASt3R/VGGT 3D Reconstruction on Photogrammetric Aerial Blocks
- arxiv url: http://arxiv.org/abs/2507.14798v1
- Date: Sun, 20 Jul 2025 03:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.06118
- Title: An Evaluation of DUSt3R/MASt3R/VGGT 3D Reconstruction on Photogrammetric Aerial Blocks
- Title(参考訳): フォトグラムを用いたDUSt3R/MASt3R/VGGT3次元再構成の評価
- Authors: Xinyi Wu, Steven Landgraf, Markus Ulrich, Rongjun Qin,
- Abstract要約: 3Dコンピュータビジョンアルゴリズムは、スパースで非順序のイメージセットの処理に引き続き進歩している。
近年,3次元再構成のための基礎モデルが注目されている。
本稿では,DUSt3R/MASt3R/VGGTモデルを用いて,ポーズ推定と高密度3次元再構成を行う。
- 参考スコア(独自算出の注目度): 24.420174764554794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art 3D computer vision algorithms continue to advance in handling sparse, unordered image sets. Recently developed foundational models for 3D reconstruction, such as Dense and Unconstrained Stereo 3D Reconstruction (DUSt3R), Matching and Stereo 3D Reconstruction (MASt3R), and Visual Geometry Grounded Transformer (VGGT), have attracted attention due to their ability to handle very sparse image overlaps. Evaluating DUSt3R/MASt3R/VGGT on typical aerial images matters, as these models may handle extremely low image overlaps, stereo occlusions, and textureless regions. For redundant collections, they can accelerate 3D reconstruction by using extremely sparsified image sets. Despite tests on various computer vision benchmarks, their potential on photogrammetric aerial blocks remains unexplored. This paper conducts a comprehensive evaluation of the pre-trained DUSt3R/MASt3R/VGGT models on the aerial blocks of the UseGeo dataset for pose estimation and dense 3D reconstruction. Results show these methods can accurately reconstruct dense point clouds from very sparse image sets (fewer than 10 images, up to 518 pixels resolution), with completeness gains up to +50% over COLMAP. VGGT also demonstrates higher computational efficiency, scalability, and more reliable camera pose estimation. However, all exhibit limitations with high-resolution images and large sets, as pose reliability declines with more images and geometric complexity. These findings suggest transformer-based methods cannot fully replace traditional SfM and MVS, but offer promise as complementary approaches, especially in challenging, low-resolution, and sparse scenarios.
- Abstract(参考訳): 最先端の3Dコンピュータビジョンアルゴリズムは、スパースで非順序のイメージセットを処理し続けている。
近年、Dense and Unconstrained Stereo 3D Reconstruction (DUSt3R)、Matching and Stereo 3D Reconstruction (MASt3R)、Visual Geometry Grounded Transformer (VGGT)などの3D再構成の基礎モデルが注目されている。
DUSt3R/MASt3R/VGGTは、これらのモデルが非常に低い画像重なり合い、ステレオ・オクルージョン、テクスチャレス領域を扱うことができるため、典型的な空中画像上の重要な要素である。
冗長なコレクションでは、極端にスペーサー化されたイメージセットを使用することで、3D再構成を加速することができる。
様々なコンピュータビジョンのベンチマークでテストされているにもかかわらず、光度計による空中ブロックのポテンシャルは未解明のままである。
本稿では,DUSt3R/MASt3R/VGGTモデルを用いて,ポーズ推定と高密度3次元再構成を行う。
以上の結果から,COLMAPで高解像度の高密度点雲(画像10枚未満,解像度518ピクセル)を高精度に再構成することが可能であり,完全性はCOLMAPで最大50%向上することが示された。
VGGTはまた、高い計算効率、スケーラビリティ、信頼性の高いカメラポーズ推定を示す。
しかし、高解像度の画像と大きな集合には制限があり、信頼性が低下し、画像が増え、幾何学的な複雑さが増す。
これらの結果は、トランスフォーマーベースの手法が従来のSfMとMVSを完全に置き換えることはできないことを示唆している。
関連論文リスト
- HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。
ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。
提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文 参考訳(メタデータ) (2025-03-27T09:45:09Z) - Gaussian Scenes: Pose-Free Sparse-View Scene Reconstruction using Depth-Enhanced Diffusion Priors [5.407319151576265]
本研究では2次元画像の粗い集合から360度シーンのポーズなし(カメラパラメータなしで)再構成のための生成的アプローチを提案する。
画像から画像への生成モデルを提案し、3Dシーンの新たな画像レンダリングと深度マップにおいて、欠落した詳細を描き、アーティファクトを除去する。
論文 参考訳(メタデータ) (2024-11-24T19:34:58Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - 2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。
しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。
本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T02:30:31Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。
提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。
この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文 参考訳(メタデータ) (2023-08-28T17:13:49Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。