論文の概要: Blending 3D Geometry and Machine Learning for Multi-View Stereopsis
- arxiv url: http://arxiv.org/abs/2505.03470v1
- Date: Tue, 06 May 2025 12:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.364753
- Title: Blending 3D Geometry and Machine Learning for Multi-View Stereopsis
- Title(参考訳): マルチビューステレオプシスのための3次元幾何学と機械学習
- Authors: Vibhas Vats, Md. Alimoor Reza, David Crandall, Soon-heung Jung,
- Abstract要約: GC MVSNet plusは、学習中に多視点、多スケールの教師あり幾何的一貫性を強制するための新しいアプローチである。
この統合GCチェックは、幾何学的に一貫性のないピクセルを直接ペナル化することにより、学習プロセスを著しく加速する。
提案手法は,DTUおよびBlendedMVSデータセット上での新たな技術状況を実現し,タンク・アンド・テンプルのベンチマークで2位を確保した。
- 参考スコア(独自算出の注目度): 3.259672998844162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional multi-view stereo (MVS) methods primarily depend on photometric and geometric consistency constraints. In contrast, modern learning-based algorithms often rely on the plane sweep algorithm to infer 3D geometry, applying explicit geometric consistency (GC) checks only as a post-processing step, with no impact on the learning process itself. In this work, we introduce GC MVSNet plus plus, a novel approach that actively enforces geometric consistency of reference view depth maps across multiple source views (multi view) and at various scales (multi scale) during the learning phase (see Fig. 1). This integrated GC check significantly accelerates the learning process by directly penalizing geometrically inconsistent pixels, effectively halving the number of training iterations compared to other MVS methods. Furthermore, we introduce a densely connected cost regularization network with two distinct block designs simple and feature dense optimized to harness dense feature connections for enhanced regularization. Extensive experiments demonstrate that our approach achieves a new state of the art on the DTU and BlendedMVS datasets and secures second place on the Tanks and Temples benchmark. To our knowledge, GC MVSNet plus plus is the first method to enforce multi-view, multi-scale supervised geometric consistency during learning. Our code is available.
- Abstract(参考訳): 従来の多視点ステレオ(MVS)法は主に測光および幾何的一貫性の制約に依存する。
対照的に、現代の学習ベースのアルゴリズムは平面スイープアルゴリズムに頼って3次元幾何学を推論し、明示的な幾何整合性(GC)チェックを後処理のステップとしてのみ適用し、学習プロセス自体に影響を与えない。
本稿では,複数のソースビュー(マルチビュー)および学習期間中の様々なスケール(マルチスケール)における参照ビュー深度マップの幾何的一貫性を積極的に実施する新しいアプローチであるGC MVSNetプラスを紹介する(図1参照)。
この統合GCチェックは、幾何学的に一貫性のないピクセルを直接ペナル化することにより学習プロセスを著しく加速し、他のMVS法と比較してトレーニングイテレーションの数を半減する。
さらに,2つの異なるブロック設計をシンプルかつ高密度に最適化した高密度なコスト正規化ネットワークを導入し,高密度な特徴接続を活用して正規化を強化する。
大規模な実験により,DTUおよびBlendedMVSデータセットの新たな最先端化を実現し,タンク・アンド・テンプルのベンチマークで2位を確保した。
我々の知る限り、GC MVSNetプラスは、学習中にマルチビュー、マルチスケールの教師あり幾何的一貫性を強制する最初の方法である。
私たちのコードは利用可能です。
関連論文リスト
- GC-MVSNet: Multi-View, Multi-Scale, Geometrically-Consistent Multi-View
Stereo [10.732653898606253]
本稿では,学習中の複数のソースビューにまたがる参照ビュー深度マップの幾何的整合性を明確に促進する新しいアプローチを提案する。
この幾何整合性損失を加えることで、幾何学的に矛盾したピクセルを明示的にペナル化することで学習を著しく加速することがわかった。
実験の結果,本手法はDTUおよびBlendedMVSデータセットの新たな最先端化を実現し,Turts and Templesベンチマークの競争結果が得られた。
論文 参考訳(メタデータ) (2023-10-30T14:41:53Z) - MP-MVS: Multi-Scale Windows PatchMatch and Planar Prior Multi-View
Stereo [7.130834755320434]
レジリエントで効果的なマルチビューステレオアプローチ(MP-MVS)を提案する。
マルチスケールウィンドウPatchMatch (mPM) を設計し, 信頼性の高い非テクスチャ領域の深さを求める。
他のマルチスケールアプローチとは対照的に、より高速で、PatchMatchベースのMVSアプローチに容易に拡張できる。
論文 参考訳(メタデータ) (2023-09-23T07:30:42Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - PatchMVSNet: Patch-wise Unsupervised Multi-View Stereo for
Weakly-Textured Surface Reconstruction [2.9896482273918434]
本稿では,多視点画像の制約を活かしたロバストな損失関数を提案し,あいまいさを緩和する。
我々の戦略は任意の深さ推定フレームワークで実装することができ、任意の大規模MVSデータセットでトレーニングすることができる。
提案手法は,DTU,タンク・アンド・テンプル,ETH3Dなどの一般的なベンチマーク上での最先端手法の性能に達する。
論文 参考訳(メタデータ) (2022-03-04T07:05:23Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。