論文の概要: Review of Feed-forward 3D Reconstruction: From DUSt3R to VGGT
- arxiv url: http://arxiv.org/abs/2507.08448v1
- Date: Fri, 11 Jul 2025 09:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.312939
- Title: Review of Feed-forward 3D Reconstruction: From DUSt3R to VGGT
- Title(参考訳): DUSt3RからVGGTへ
- Authors: Wei Zhang, Yihang Wu, Songhua Li, Wenjie Ma, Xin Ma, Qiang Li, Qi Wang,
- Abstract要約: 3D再構成は、拡張現実やバーチャルリアリティー、自動運転、ロボット工学など、多くの応用の基盤となる技術だ。
ディープラーニングは、3D再構築におけるパラダイムシフトを触媒している。
新しいモデルでは、統合されたディープネットワークを使用して、カメラのポーズと密集した幾何学を、1つの前方通過における非拘束画像から直接推測する。
- 参考スコア(独自算出の注目度): 10.984522161856955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D reconstruction, which aims to recover the dense three-dimensional structure of a scene, is a cornerstone technology for numerous applications, including augmented/virtual reality, autonomous driving, and robotics. While traditional pipelines like Structure from Motion (SfM) and Multi-View Stereo (MVS) achieve high precision through iterative optimization, they are limited by complex workflows, high computational cost, and poor robustness in challenging scenarios like texture-less regions. Recently, deep learning has catalyzed a paradigm shift in 3D reconstruction. A new family of models, exemplified by DUSt3R, has pioneered a feed-forward approach. These models employ a unified deep network to jointly infer camera poses and dense geometry directly from an Unconstrained set of images in a single forward pass. This survey provides a systematic review of this emerging domain. We begin by dissecting the technical framework of these feed-forward models, including their Transformer-based correspondence modeling, joint pose and geometry regression mechanisms, and strategies for scaling from two-view to multi-view scenarios. To highlight the disruptive nature of this new paradigm, we contrast it with both traditional pipelines and earlier learning-based methods like MVSNet. Furthermore, we provide an overview of relevant datasets and evaluation metrics. Finally, we discuss the technology's broad application prospects and identify key future challenges and opportunities, such as model accuracy and scalability, and handling dynamic scenes.
- Abstract(参考訳): 3D再構成は、シーンの密集した3次元構造を復元することを目的としており、拡張現実やバーチャルリアリティー、自動運転、ロボット工学など、多くの応用の基盤となる技術である。
Structure from Motion (SfM)やMulti-View Stereo (MVS)のような従来のパイプラインは、反復的な最適化によって高い精度を達成するが、複雑なワークフロー、高い計算コスト、テクスチャレスリージョンのような挑戦的なシナリオでの堅牢性に制限されている。
近年,ディープラーニングは3次元再構築のパラダイムシフトを引き起こしている。
DUSt3Rによって実証された新しいモデルのファミリーは、フィードフォワードアプローチのパイオニアとなった。
これらのモデルでは、統合されたディープネットワークを使用して、カメラのポーズと密集した幾何学を、1つの前方通過における非拘束画像の集合から直接推論する。
この調査は、この新興領域の体系的なレビューを提供する。
まず、これらのフィードフォワードモデルの技術的枠組みを、Transformerベースの対応モデリング、共同ポーズと幾何回帰機構、および2視点から多視点シナリオへのスケーリング戦略など、区別することから始める。
この新しいパラダイムの破壊的な性質を強調するために、従来のパイプラインと、MVSNetのような以前の学習ベースの手法を対比する。
さらに,関連するデータセットと評価指標について概説する。
最後に、この技術の幅広い応用展望について論じ、モデル精度やスケーラビリティ、動的シーンの扱いなど、今後の課題や機会について論じる。
関連論文リスト
- DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - A Generative Approach to High Fidelity 3D Reconstruction from Text Data [0.0]
本研究では,テキスト・画像生成をシームレスに統合する完全自動パイプライン,様々な画像処理技術,反射除去と3次元再構成のためのディープラーニング手法を提案する。
安定拡散のような最先端の生成モデルを活用することで、この手法は自然言語の入力を多段階のワークフローを通じて詳細な3Dモデルに変換する。
このアプローチは、意味的コヒーレンスを維持すること、幾何学的複雑さを管理すること、詳細な視覚情報を保存することなど、生成的再構築における重要な課題に対処する。
論文 参考訳(メタデータ) (2025-03-05T16:54:15Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - End-to-End Multi-View Structure-from-Motion with Hypercorrelation
Volumes [7.99536002595393]
この問題に対処するために深層学習技術が提案されている。
我々は現在最先端の2次元構造であるSfM(SfM)のアプローチを改善している。
一般的なマルチビューのケースに拡張し、複雑なベンチマークデータセットDTUで評価する。
論文 参考訳(メタデータ) (2022-09-14T20:58:44Z) - Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model
Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。
rgb-dデータストリームを用いてインタラクティブシーンを再構築する。
この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文 参考訳(メタデータ) (2021-03-30T05:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。