論文の概要: Advances in Feed-Forward 3D Reconstruction and View Synthesis: A Survey
- arxiv url: http://arxiv.org/abs/2507.14501v2
- Date: Wed, 30 Jul 2025 03:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:51.363583
- Title: Advances in Feed-Forward 3D Reconstruction and View Synthesis: A Survey
- Title(参考訳): フィードフォワード3次元再構成とビュー合成の進歩:サーベイ
- Authors: Jiahui Zhang, Yuelei Li, Anpei Chen, Muyu Xu, Kunhao Liu, Jianyuan Wang, Xiao-Xiao Long, Hanxue Liang, Zexiang Xu, Hao Su, Christian Theobalt, Christian Rupprecht, Andrea Vedaldi, Hanspeter Pfister, Shijian Lu, Fangneng Zhan,
- Abstract要約: 3D再構成とビュー合成は、拡張現実(AR)、仮想現実(VR)、デジタルツインといった没入型技術における基礎的な問題である。
深層学習によるフィードフォワードアプローチの最近の進歩は、高速で一般化可能な3次元再構成とビュー合成を可能にして、この分野に革命をもたらした。
- 参考スコア(独自算出の注目度): 154.50661618628433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D reconstruction and view synthesis are foundational problems in computer vision, graphics, and immersive technologies such as augmented reality (AR), virtual reality (VR), and digital twins. Traditional methods rely on computationally intensive iterative optimization in a complex chain, limiting their applicability in real-world scenarios. Recent advances in feed-forward approaches, driven by deep learning, have revolutionized this field by enabling fast and generalizable 3D reconstruction and view synthesis. This survey offers a comprehensive review of feed-forward techniques for 3D reconstruction and view synthesis, with a taxonomy according to the underlying representation architectures including point cloud, 3D Gaussian Splatting (3DGS), Neural Radiance Fields (NeRF), etc. We examine key tasks such as pose-free reconstruction, dynamic 3D reconstruction, and 3D-aware image and video synthesis, highlighting their applications in digital humans, SLAM, robotics, and beyond. In addition, we review commonly used datasets with detailed statistics, along with evaluation protocols for various downstream tasks. We conclude by discussing open research challenges and promising directions for future work, emphasizing the potential of feed-forward approaches to advance the state of the art in 3D vision.
- Abstract(参考訳): 3D再構成とビュー合成は、拡張現実(AR)、仮想現実(VR)、デジタルツインといった没入型技術における基礎的な問題である。
従来の手法は複雑な連鎖における計算集約的な反復最適化に依存しており、現実のシナリオにおける適用性を制限する。
深層学習によるフィードフォワードアプローチの最近の進歩は、高速で一般化可能な3次元再構成とビュー合成を可能にして、この分野に革命をもたらした。
本調査では,3次元再構成とビュー合成のためのフィードフォワード手法の総合的なレビューを行い,ポイントクラウド,3次元ガウススプラッティング(3DGS),ニューラルラジアンスフィールド(NeRF)などに基づく分類を行った。
本研究では,ポーズレス再構築,動的3D再構成,3D認識画像と映像合成などの重要な課題について検討し,デジタル人間,SLAM,ロボット工学などへの応用について紹介する。
さらに、様々な下流タスクの評価プロトコルとともに、詳細な統計情報を備えた一般的なデータセットをレビューする。
我々は、オープンな研究課題と将来の仕事への有望な方向性について議論し、3Dビジョンの最先端化に向けたフィードフォワードアプローチの可能性を強調した。
関連論文リスト
- R3eVision: A Survey on Robust Rendering, Restoration, and Enhancement for 3D Low-Level Vision [9.961452710097685]
3次元低レベルビジョン(3D LLV)は、古典的な2次元低レベルビジョンタスクを3次元空間領域に拡張する。
LLVをニューラルレンダリングフレームワークに統合する最近の手法は、有害な条件下で高忠実度3D再構成を可能にする方法を説明するために分類される。
本研究は、3D LLVを実環境におけるロバストな3Dコンテンツ生成とシーンレベルの再構築の基本的な方向性として位置づける。
論文 参考訳(メタデータ) (2025-06-19T12:25:46Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - A Survey of 3D Reconstruction with Event Cameras [16.103940503726022]
イベントカメラはスパースで時間的に密度の高いデータストリームを生成し、堅牢で正確な3D再構成を可能にする。
これらの能力は、自律運転、ロボティクス、空中ナビゲーション、没入型バーチャルリアリティーなど、さまざまな分野にまたがるトランスフォーメーションアプリケーションに対して、大きな保証を提供する。
本調査は, イベント駆動型3D再構築における最先端技術に向けた, 明確かつモチベーションの高いロードマップを提供する。
論文 参考訳(メタデータ) (2025-05-13T11:04:04Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - A Generative Approach to High Fidelity 3D Reconstruction from Text Data [0.0]
本研究では,テキスト・画像生成をシームレスに統合する完全自動パイプライン,様々な画像処理技術,反射除去と3次元再構成のためのディープラーニング手法を提案する。
安定拡散のような最先端の生成モデルを活用することで、この手法は自然言語の入力を多段階のワークフローを通じて詳細な3Dモデルに変換する。
このアプローチは、意味的コヒーレンスを維持すること、幾何学的複雑さを管理すること、詳細な視覚情報を保存することなど、生成的再構築における重要な課題に対処する。
論文 参考訳(メタデータ) (2025-03-05T16:54:15Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Gaussian Splatting: 3D Reconstruction and Novel View Synthesis, a Review [0.08823202672546056]
本稿では,新鮮で見えない視点の創出を含む3次元再構成技術について概説する。
ガウススティング法における最近の展開の概要として,入力型,モデル構造,出力表現,トレーニング戦略について概説する。
論文 参考訳(メタデータ) (2024-05-06T12:32:38Z) - Recent Trends in 3D Reconstruction of General Non-Rigid Scenes [104.07781871008186]
コンピュータグラフィックスやコンピュータビジョンにおいて、3次元幾何学、外観、実際のシーンの動きを含む現実世界のモデルの再構築が不可欠である。
これは、映画産業やAR/VRアプリケーションに有用な、フォトリアリスティックなノベルビューの合成を可能にする。
この最新技術レポート(STAR)は、モノクロおよびマルチビュー入力による最新技術の概要を読者に提供する。
論文 参考訳(メタデータ) (2024-03-22T09:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。