論文の概要: Learning-based Multi-View Stereo: A Survey
- arxiv url: http://arxiv.org/abs/2408.15235v1
- Date: Tue, 27 Aug 2024 17:53:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 12:53:10.589352
- Title: Learning-based Multi-View Stereo: A Survey
- Title(参考訳): 学習型マルチビューステレオ:サーベイ
- Authors: Fangjinhua Wang, Qingtian Zhu, Di Chang, Quankai Gao, Junlin Han, Tong Zhang, Richard Hartley, Marc Pollefeys,
- Abstract要約: MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。
ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 55.3096230732874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D reconstruction aims to recover the dense 3D structure of a scene. It plays an essential role in various applications such as Augmented/Virtual Reality (AR/VR), autonomous driving and robotics. Leveraging multiple views of a scene captured from different viewpoints, Multi-View Stereo (MVS) algorithms synthesize a comprehensive 3D representation, enabling precise reconstruction in complex environments. Due to its efficiency and effectiveness, MVS has become a pivotal method for image-based 3D reconstruction. Recently, with the success of deep learning, many learning-based MVS methods have been proposed, achieving impressive performance against traditional methods. We categorize these learning-based methods as: depth map-based, voxel-based, NeRF-based, 3D Gaussian Splatting-based, and large feed-forward methods. Among these, we focus significantly on depth map-based methods, which are the main family of MVS due to their conciseness, flexibility and scalability. In this survey, we provide a comprehensive review of the literature at the time of this writing. We investigate these learning-based methods, summarize their performances on popular benchmarks, and discuss promising future research directions in this area.
- Abstract(参考訳): 3D再構成はシーンの高密度な3D構造を復元することを目的としている。
Augmented/Virtual Reality (AR/VR)、自律運転、ロボット工学など、さまざまなアプリケーションにおいて重要な役割を果たす。
異なる視点から捉えたシーンの複数のビューを活用することで、Multi-View Stereo (MVS)アルゴリズムは包括的な3D表現を合成し、複雑な環境における正確な再構築を可能にする。
その効率性と有効性のため、MVSは画像ベースの3D再構成において重要な方法となっている。
近年,ディープラーニングの成功により,従来の手法に対して優れた性能を達成し,多くの学習ベースのMVS手法が提案されている。
本研究では,これらの学習手法を,深度マップベース,ボクセルベース,NeRFベース,3次元ガウススプラッティングベース,大型フィードフォワード方式に分類する。
これらのうち、深度マップに基づく手法は、その簡潔さ、柔軟性、拡張性から、MSVのメインファミリーである。
本調査では,本稿執筆時の文献を概観する。
本稿では,これらの学習に基づく手法について検討し,その性能を一般的なベンチマークで要約し,将来的な研究方向性について論じる。
関連論文リスト
- Deep Models for Multi-View 3D Object Recognition: A Review [16.500711021549947]
これまで,オブジェクト認識のための多視点3D表現は,最先端性能を実現する上で最も有望な結果であった。
本稿では,3次元分類・検索タスクにおける多視点オブジェクト認識手法の最近の進歩を包括的に紹介する。
論文 参考訳(メタデータ) (2024-04-23T16:54:31Z) - Scaling Multi-Camera 3D Object Detection through Weak-to-Strong Eliciting [32.66151412557986]
本研究では,頑健な単分子知覚を維持しつつ,サラウンドリファインメントの強化を目的とした弱強誘引フレームワークを提案する。
我々のフレームワークは、異なるサブセットで訓練された弱い調整された専門家を採用しており、それぞれが固有のカメラ構成やシナリオに偏っている。
MC3D-Detジョイントトレーニングでは、不整合カメラ数とカメラパラメータの問題を解決するために、詳細なデータセットマージ戦略が設計されている。
論文 参考訳(メタデータ) (2024-04-10T03:11:10Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - One at a Time: Progressive Multi-step Volumetric Probability Learning
for Reliable 3D Scene Perception [59.37727312705997]
本稿では,複雑な3次元ボリューム表現学習を生成段階の列に分解することを提案する。
強力な生成拡散モデルにより達成された最近の進歩を考えると、我々はVPDと呼ばれる多段階学習フレームワークを導入する。
SSCタスクでは、Semantic KITTIデータセット上でLiDARベースのメソッドを初めて越える作業として際立っている。
論文 参考訳(メタデータ) (2023-06-22T05:55:53Z) - Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception
from Monocular Video [2.2299983745857896]
本稿では3次元シーンの幾何学的構造と意味的ラベルを協調的に知覚する新しいリアルタイム能動的学習法を提案する。
本稿では,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムに抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
論文 参考訳(メタデータ) (2023-03-16T11:53:29Z) - State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [100.9586977875698]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。
本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文 参考訳(メタデータ) (2022-10-27T17:59:53Z) - End-to-End Multi-View Structure-from-Motion with Hypercorrelation
Volumes [7.99536002595393]
この問題に対処するために深層学習技術が提案されている。
我々は現在最先端の2次元構造であるSfM(SfM)のアプローチを改善している。
一般的なマルチビューのケースに拡張し、複雑なベンチマークデータセットDTUで評価する。
論文 参考訳(メタデータ) (2022-09-14T20:58:44Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Deep Learning for Multi-View Stereo via Plane Sweep: A Survey [0.0]
自動運転、ロボティクス、バーチャルリアリティーなど、多くの分野に応用されているため、近年3D再構築が注目を集めている。
人工知能における支配的な技術として、ディープラーニングは様々なコンピュータビジョン問題を解決するためにうまく採用されている。
本稿では,画像に基づく3次元再構成において重要な課題である多視点ステレオ(MVS)の深層学習手法の最近の進歩を概観する。
論文 参考訳(メタデータ) (2021-06-18T14:10:44Z) - Video Super Resolution Based on Deep Learning: A Comprehensive Survey [87.30395002197344]
深層学習に基づく33の最先端ビデオ超解像法(VSR)を包括的に検討した。
そこで本研究では,フレーム間情報を利用した分類手法を提案し,その手法を6つのサブカテゴリに分類する。
いくつかのベンチマークデータセットにおける代表的VSR法の性能を要約し比較する。
論文 参考訳(メタデータ) (2020-07-25T13:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。