論文の概要: Multiview Stereo with Cascaded Epipolar RAFT
- arxiv url: http://arxiv.org/abs/2205.04502v1
- Date: Mon, 9 May 2022 18:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:47:21.617052
- Title: Multiview Stereo with Cascaded Epipolar RAFT
- Title(参考訳): Cascaded Epipolar RAFT を用いた多視点ステレオ
- Authors: Zeyu Ma, Zachary Teed, Jia Deng
- Abstract要約: 複数の校正画像から高密度点雲などの3次元モデルを再構成する重要な3次元視覚課題であるマルチビューステレオ(MVS)に対処する。
CER-MVSは、RAFT(Recurrent All-Pairs Field Transforms)アーキテクチャに基づく光学フローのための新しいアプローチであるCER-MVSを提案する。CER-MVSは、RAFTに5つの新しい変更を加える: エピポーラコストボリューム、コストボリュームカスケード、コストボリュームのマルチビュー融合、動的監視、深度マップのマルチ解像度融合。
- 参考スコア(独自算出の注目度): 73.7619703879639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address multiview stereo (MVS), an important 3D vision task that
reconstructs a 3D model such as a dense point cloud from multiple calibrated
images. We propose CER-MVS (Cascaded Epipolar RAFT Multiview Stereo), a new
approach based on the RAFT (Recurrent All-Pairs Field Transforms) architecture
developed for optical flow. CER-MVS introduces five new changes to RAFT:
epipolar cost volumes, cost volume cascading, multiview fusion of cost volumes,
dynamic supervision, and multiresolution fusion of depth maps. CER-MVS is
significantly different from prior work in multiview stereo. Unlike prior work,
which operates by updating a 3D cost volume, CER-MVS operates by updating a
disparity field. Furthermore, we propose an adaptive thresholding method to
balance the completeness and accuracy of the reconstructed point clouds.
Experiments show that our approach achieves competitive performance on DTU (the
second best among known results) and state-of-the-art performance on the
Tanks-and-Temples benchmark (both the intermediate and advanced set). Code is
available at https://github.com/princeton-vl/CER-MVS
- Abstract(参考訳): 複数の校正画像から高密度点雲などの3次元モデルを再構成する重要な3次元視覚課題であるマルチビューステレオ(MVS)に対処する。
CER-MVS (Cascaded Epipolar RAFT Multiview Stereo) は、光学流用RAFT(Recurrent All-Pairs Field Transforms)アーキテクチャに基づく新しいアプローチである。
CER-MVSはRAFTに5つの新しい変更を加えた: エピポーラコストボリューム、コストボリュームカスケード、コストボリュームのマルチビュー融合、動的監視、深度マップのマルチ解像度融合。
CER-MVSは、従来のマルチビューステレオとは大きく異なる。
CER-MVSは3Dコストボリュームを更新して運用する以前の作業とは異なり、不均一フィールドを更新して運用する。
さらに,再構成された点雲の完全性と精度をバランスさせる適応しきい値法を提案する。
実験により,本手法はDTU(既知の結果の中では2番目に高い)の競合性能と,Tants-and-Templesベンチマーク(中間セットと上級セットの両方)の最先端性能を実現することが示された。
コードはhttps://github.com/princeton-vl/CER-MVSで入手できる。
関連論文リスト
- MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View
Stereo [60.75684891484619]
我々は、MVSパイプラインの様々なコンポーネントを強化するために、注意の特性を最大化するMVSFormer++を紹介する。
特徴エンコーダとコスト容積正規化には異なる注意機構を用い,それぞれ特徴量と空間的アグリゲーションに着目した。
DTU, タンク・アンド・テンプル, BlendedMVS, ETH3Dの総合的な実験により, 提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-01-22T03:22:49Z) - MP-MVS: Multi-Scale Windows PatchMatch and Planar Prior Multi-View
Stereo [7.130834755320434]
レジリエントで効果的なマルチビューステレオアプローチ(MP-MVS)を提案する。
マルチスケールウィンドウPatchMatch (mPM) を設計し, 信頼性の高い非テクスチャ領域の深さを求める。
他のマルチスケールアプローチとは対照的に、より高速で、PatchMatchベースのMVSアプローチに容易に拡張できる。
論文 参考訳(メタデータ) (2023-09-23T07:30:42Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - WT-MVSNet: Window-based Transformers for Multi-view Stereo [12.25150988628149]
我々は,ウィンドウベースのエピポーラ変換器 (WET) を導入し, エピポーラ制約を用いることで, マッチング冗長性を低減した。
第2のShifted WTは、コストボリューム内でグローバル情報を集約するために使用される。
本稿では,3次元畳み込みを置き換えた新しいCT(Cost Transformer)を提案する。
論文 参考訳(メタデータ) (2022-05-28T03:32:09Z) - MVSTER: Epipolar Transformer for Efficient Multi-View Stereo [26.640495084316925]
学習ベースMulti-View Stereo法では,ソース画像を3Dボリュームにワープする。
従来の手法では、余分なネットワークを利用して2次元情報を融合キューとして学習し、3次元空間相関を利用して計算コストを増大させる。
本稿では,2次元のセマンティクスと3次元の空間的関連性の両方を効率的に学習するために,提案したエピポーラ変換器を利用するMVSTERを提案する。
論文 参考訳(メタデータ) (2022-04-15T06:47:57Z) - RayMVSNet: Learning Ray-based 1D Implicit Fields for Accurate Multi-View
Stereo [35.22032072756035]
RayMVSNetは、シーン深度を示すゼロクロスポイントを用いて、各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習する。
本手法は,従来の学習手法よりも,DTUとTurps & Templesのデータセットの上位にランク付けする。
論文 参考訳(メタデータ) (2022-04-04T08:43:38Z) - Curvature-guided dynamic scale networks for Multi-view Stereo [10.667165962654996]
本稿では,重み計算を伴わずにマッチングコストの性能を向上させるために,ロバストな特徴抽出ネットワークを学習することに焦点を当てる。
動的スケール特徴抽出ネットワーク,すなわちCDSFNetを提案する。
複数の新しい畳み込み層で構成され、それぞれが画像表面の通常の曲率でガイドされる各画素に対して適切なパッチスケールを選択することができる。
論文 参考訳(メタデータ) (2021-12-11T14:41:05Z) - IterMVS: Iterative Probability Estimation for Efficient Multi-View
Stereo [71.84742490020611]
IterMVSは高解像度マルチビューステレオのための新しいデータ駆動方式である。
隠れ状態の深さの画素単位の確率分布を符号化するGRUに基づく新しい推定器を提案する。
DTU, タンク&テンプル, ETH3Dにおける本手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2021-12-09T18:58:02Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。