論文の概要: RayMVSNet: Learning Ray-based 1D Implicit Fields for Accurate Multi-View
Stereo
- arxiv url: http://arxiv.org/abs/2204.01320v1
- Date: Mon, 4 Apr 2022 08:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 00:59:48.179416
- Title: RayMVSNet: Learning Ray-based 1D Implicit Fields for Accurate Multi-View
Stereo
- Title(参考訳): RayMVSNet: 正確なマルチビューステレオのためのレイベース1Dインプリシトフィールド学習
- Authors: Junhua Xi, Yifei Shi, Yijie Wang, Yulan Guo, Kai Xu
- Abstract要約: RayMVSNetは、シーン深度を示すゼロクロスポイントを用いて、各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習する。
本手法は,従来の学習手法よりも,DTUとTurps & Templesのデータセットの上位にランク付けする。
- 参考スコア(独自算出の注目度): 35.22032072756035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based multi-view stereo (MVS) has by far centered around 3D
convolution on cost volumes. Due to the high computation and memory consumption
of 3D CNN, the resolution of output depth is often considerably limited.
Different from most existing works dedicated to adaptive refinement of cost
volumes, we opt to directly optimize the depth value along each camera ray,
mimicking the range (depth) finding of a laser scanner. This reduces the MVS
problem to ray-based depth optimization which is much more light-weight than
full cost volume optimization. In particular, we propose RayMVSNet which learns
sequential prediction of a 1D implicit field along each camera ray with the
zero-crossing point indicating scene depth. This sequential modeling, conducted
based on transformer features, essentially learns the epipolar line search in
traditional multi-view stereo. We also devise a multi-task learning for better
optimization convergence and depth accuracy. Our method ranks top on both the
DTU and the Tanks \& Temples datasets over all previous learning-based methods,
achieving overall reconstruction score of 0.33mm on DTU and f-score of 59.48%
on Tanks & Temples.
- Abstract(参考訳): 学習ベースのマルチビューステレオ(MVS)は、コストボリュームの3D畳み込みを中心にしている。
3D CNNの高計算とメモリ消費のため、出力深さの解像度は大幅に制限されることが多い。
コストボリュームを適応的に改善するための既存の作業とは異なり、我々はレーザースキャナーの範囲(深度)を模倣して、各カメラ線に沿った深さ値を直接最適化する。
これによりmvsの問題は、フルコストのボリューム最適化よりもはるかに軽量なレイベースの深さ最適化に抑えられる。
特に,シーン深度を示すゼロクロスポイントを用いて,各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習するRayMVSNetを提案する。
この逐次モデリングは変圧器の特徴に基づいて行われ、従来のマルチビューステレオのエピポーラ線探索を本質的に学習する。
また,最適化収束と深度精度向上のためのマルチタスク学習も考案した。
我々の手法は、DTUとタンク&テンプルのデータセットの上位にランクされ、DTUでは0.33mm、タンク&テンプルでは59.48%となっている。
関連論文リスト
- ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文 参考訳(メタデータ) (2023-08-17T14:52:11Z) - RayMVSNet++: Learning Ray-based 1D Implicit Fields for Accurate
Multi-View Stereo [21.209964556493368]
RayMVSNetは、シーン深度を示すゼロクロスポイントを用いて、各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習する。
RayMVSNet++はScanNetデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-16T02:10:47Z) - Multiview Stereo with Cascaded Epipolar RAFT [73.7619703879639]
複数の校正画像から高密度点雲などの3次元モデルを再構成する重要な3次元視覚課題であるマルチビューステレオ(MVS)に対処する。
CER-MVSは、RAFT(Recurrent All-Pairs Field Transforms)アーキテクチャに基づく光学フローのための新しいアプローチであるCER-MVSを提案する。CER-MVSは、RAFTに5つの新しい変更を加える: エピポーラコストボリューム、コストボリュームカスケード、コストボリュームのマルチビュー融合、動的監視、深度マップのマルチ解像度融合。
論文 参考訳(メタデータ) (2022-05-09T18:17:05Z) - DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors [60.88824519770208]
カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
本稿では,2次元から3次元のパイプラインを通しての情報フローを改善することを目的としたDSGN++を提案する。
論文 参考訳(メタデータ) (2022-04-06T18:43:54Z) - IterMVS: Iterative Probability Estimation for Efficient Multi-View
Stereo [71.84742490020611]
IterMVSは高解像度マルチビューステレオのための新しいデータ駆動方式である。
隠れ状態の深さの画素単位の確率分布を符号化するGRUに基づく新しい推定器を提案する。
DTU, タンク&テンプル, ETH3Dにおける本手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2021-12-09T18:58:02Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - MVS2D: Efficient Multi-view Stereo via Attention-Driven 2D Convolutions [47.712764089489355]
MVS2Dは、注意メカニズムを介してマルチビュー制約をシングルビューネットワークにシームレスに統合する高効率なマルチビューステレオアルゴリズムです。
提案手法は精度の高い深さ推定を行い,scannet,sun3d,rgbdに挑戦する。
論文 参考訳(メタデータ) (2021-04-27T16:56:05Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - A Novel Recurrent Encoder-Decoder Structure for Large-Scale Multi-view
Stereo Reconstruction from An Open Aerial Dataset [6.319667056655425]
我々は、WHUデータセットと呼ばれる合成空中データセットを提案し、これが最初の大規模多視点空中データセットである。
広帯域深度推定のための新しいネットワークRED-Netについても紹介する。
実験の結果,提案手法は現在のMVS法を50%以上の平均絶対誤差(MAE)で上回り,メモリと計算コストを削減できた。
論文 参考訳(メタデータ) (2020-03-02T03:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。