Fugu-MT 論文翻訳(概要): Learning-based Multi-View Stereo: A Survey

論文の概要: Learning-based Multi-View Stereo: A Survey

arxiv url: http://arxiv.org/abs/2408.15235v1
Date: Tue, 27 Aug 2024 17:53:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 12:53:10.589352
Title: Learning-based Multi-View Stereo: A Survey
Title（参考訳）: 学習型マルチビューステレオ:サーベイ
Authors: Fangjinhua Wang, Qingtian Zhu, Di Chang, Quankai Gao, Junlin Han, Tong Zhang, Richard Hartley, Marc Pollefeys,
Abstract要約: MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 55.3096230732874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D reconstruction aims to recover the dense 3D structure of a scene. It plays an essential role in various applications such as Augmented/Virtual Reality (AR/VR), autonomous driving and robotics. Leveraging multiple views of a scene captured from different viewpoints, Multi-View Stereo (MVS) algorithms synthesize a comprehensive 3D representation, enabling precise reconstruction in complex environments. Due to its efficiency and effectiveness, MVS has become a pivotal method for image-based 3D reconstruction. Recently, with the success of deep learning, many learning-based MVS methods have been proposed, achieving impressive performance against traditional methods. We categorize these learning-based methods as: depth map-based, voxel-based, NeRF-based, 3D Gaussian Splatting-based, and large feed-forward methods. Among these, we focus significantly on depth map-based methods, which are the main family of MVS due to their conciseness, flexibility and scalability. In this survey, we provide a comprehensive review of the literature at the time of this writing. We investigate these learning-based methods, summarize their performances on popular benchmarks, and discuss promising future research directions in this area.
Abstract（参考訳）: 3D再構成はシーンの高密度な3D構造を復元することを目的としている。 Augmented/Virtual Reality (AR/VR)、自律運転、ロボット工学など、さまざまなアプリケーションにおいて重要な役割を果たす。異なる視点から捉えたシーンの複数のビューを活用することで、Multi-View Stereo (MVS)アルゴリズムは包括的な3D表現を合成し、複雑な環境における正確な再構築を可能にする。その効率性と有効性のため、MVSは画像ベースの3D再構成において重要な方法となっている。近年,ディープラーニングの成功により,従来の手法に対して優れた性能を達成し,多くの学習ベースのMVS手法が提案されている。本研究では,これらの学習手法を,深度マップベース,ボクセルベース,NeRFベース,3次元ガウススプラッティングベース,大型フィードフォワード方式に分類する。これらのうち、深度マップに基づく手法は、その簡潔さ、柔軟性、拡張性から、MSVのメインファミリーである。本調査では,本稿執筆時の文献を概観する。本稿では,これらの学習に基づく手法について検討し,その性能を一般的なベンチマークで要約し,将来的な研究方向性について論じる。

関連論文リスト

Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文参考訳（メタデータ） (2025-11-14T04:16:09Z)
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。 VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文参考訳（メタデータ） (2025-05-26T17:56:30Z)
How to Enable LLM with 3D Capacity? A Survey of Spatial Reasoning in LLM [39.65493154187172]
大規模言語モデル(LLM)は、3D理解タスクを強化するために利用されており、従来のコンピュータビジョン手法を超越する可能性を示している。本稿では,既存の手法を3つの分野に分類する分類法を提案する。2次元視覚データから3次元理解を導出するイメージベース手法,3次元表現を直接扱うポイントクラウド方式,複数データストリームを組み合わせたハイブリッドモダリティ方式である。
論文参考訳（メタデータ） (2025-04-08T08:11:39Z)
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion [27.836518920611557]
本稿では,新しい視点から画像や深度マップを直接生成できる拡散型アーキテクチャMVGDを紹介する。このモデルは、公開データセットから6000万以上のマルチビューサンプルを収集した上でトレーニングします。複数の新しいビュー合成ベンチマーク、マルチビューステレオおよびビデオ深度推定における最先端結果について報告する。
論文参考訳（メタデータ） (2025-01-30T23:43:06Z)
Deep Models for Multi-View 3D Object Recognition: A Review [16.500711021549947]
これまで,オブジェクト認識のための多視点3D表現は,最先端性能を実現する上で最も有望な結果であった。本稿では,3次元分類・検索タスクにおける多視点オブジェクト認識手法の最近の進歩を包括的に紹介する。
論文参考訳（メタデータ） (2024-04-23T16:54:31Z)
Scaling Multi-Camera 3D Object Detection through Weak-to-Strong Eliciting [32.66151412557986]
本研究では,頑健な単分子知覚を維持しつつ,サラウンドリファインメントの強化を目的とした弱強誘引フレームワークを提案する。我々のフレームワークは、異なるサブセットで訓練された弱い調整された専門家を採用しており、それぞれが固有のカメラ構成やシナリオに偏っている。 MC3D-Detジョイントトレーニングでは、不整合カメラ数とカメラパラメータの問題を解決するために、詳細なデータセットマージ戦略が設計されている。
論文参考訳（メタデータ） (2024-04-10T03:11:10Z)
RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文参考訳（メタデータ） (2023-12-19T03:39:56Z)
One at a Time: Progressive Multi-step Volumetric Probability Learning for Reliable 3D Scene Perception [59.37727312705997]
本稿では,複雑な3次元ボリューム表現学習を生成段階の列に分解することを提案する。強力な生成拡散モデルにより達成された最近の進歩を考えると、我々はVPDと呼ばれる多段階学習フレームワークを導入する。 SSCタスクでは、Semantic KITTIデータセット上でLiDARベースのメソッドを初めて越える作業として際立っている。
論文参考訳（メタデータ） (2023-06-22T05:55:53Z)
Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception from Monocular Video [2.2299983745857896]
本稿では3次元シーンの幾何学的構造と意味的ラベルを協調的に知覚する新しいリアルタイム能動的学習法を提案する。本稿では,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムに抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
論文参考訳（メタデータ） (2023-03-16T11:53:29Z)
State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [100.9586977875698]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文参考訳（メタデータ） (2022-10-27T17:59:53Z)
End-to-End Multi-View Structure-from-Motion with Hypercorrelation Volumes [7.99536002595393]
この問題に対処するために深層学習技術が提案されている。我々は現在最先端の2次元構造であるSfM(SfM)のアプローチを改善している。一般的なマルチビューのケースに拡張し、複雑なベンチマークデータセットDTUで評価する。
論文参考訳（メタデータ） (2022-09-14T20:58:44Z)
3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文参考訳（メタデータ） (2021-12-01T00:52:42Z)
Deep Learning for Multi-View Stereo via Plane Sweep: A Survey [0.0]
自動運転、ロボティクス、バーチャルリアリティーなど、多くの分野に応用されているため、近年3D再構築が注目を集めている。人工知能における支配的な技術として、ディープラーニングは様々なコンピュータビジョン問題を解決するためにうまく採用されている。本稿では,画像に基づく3次元再構成において重要な課題である多視点ステレオ(MVS)の深層学習手法の最近の進歩を概観する。
論文参考訳（メタデータ） (2021-06-18T14:10:44Z)
Video Super Resolution Based on Deep Learning: A Comprehensive Survey [87.30395002197344]
深層学習に基づく33の最先端ビデオ超解像法(VSR)を包括的に検討した。そこで本研究では,フレーム間情報を利用した分類手法を提案し,その手法を6つのサブカテゴリに分類する。いくつかのベンチマークデータセットにおける代表的VSR法の性能を要約し比較する。
論文参考訳（メタデータ） (2020-07-25T13:39:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。