論文の概要: Generalized Binary Search Network for Highly-Efficient Multi-View Stereo
- arxiv url: http://arxiv.org/abs/2112.02338v1
- Date: Sat, 4 Dec 2021 13:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 16:38:31.922527
- Title: Generalized Binary Search Network for Highly-Efficient Multi-View Stereo
- Title(参考訳): 高効率マルチビューステレオのための一般化二分探索ネットワーク
- Authors: Zhenxing Mi, Di Chang, Dan Xu
- Abstract要約: カメラパラメータが既知のマルチビューステレオ(MVS)は、基本的に有効な深度範囲内の1次元探索問題である。
近年の深層学習に基づくMVS法は, 一般に深度範囲の深部仮説を高密度にサンプリングする。
本稿では,メモリフットプリントを大幅に削減する高効率MVSを提案する。
- 参考スコア(独自算出の注目度): 10.367295443948487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view Stereo (MVS) with known camera parameters is essentially a 1D
search problem within a valid depth range. Recent deep learning-based MVS
methods typically densely sample depth hypotheses in the depth range, and then
construct prohibitively memory-consuming 3D cost volumes for depth prediction.
Although coarse-to-fine sampling strategies alleviate this overhead issue to a
certain extent, the efficiency of MVS is still an open challenge. In this work,
we propose a novel method for highly efficient MVS that remarkably decreases
the memory footprint, meanwhile clearly advancing state-of-the-art depth
prediction performance. We investigate what a search strategy can be reasonably
optimal for MVS taking into account of both efficiency and effectiveness. We
first formulate MVS as a binary search problem, and accordingly propose a
generalized binary search network for MVS. Specifically, in each step, the
depth range is split into 2 bins with extra 1 error tolerance bin on both
sides. A classification is performed to identify which bin contains the true
depth. We also design three mechanisms to respectively handle classification
errors, deal with out-of-range samples and decrease the training memory. The
new formulation makes our method only sample a very small number of depth
hypotheses in each step, which is highly memory efficient, and also greatly
facilitates quick training convergence. Experiments on competitive benchmarks
show that our method achieves state-of-the-art accuracy with much less memory.
Particularly, our method obtains an overall score of 0.289 on DTU dataset and
tops the first place on challenging Tanks and Temples advanced dataset among
all the learning-based methods. The trained models and code will be released at
https://github.com/MiZhenxing/GBi-Net.
- Abstract(参考訳): カメラパラメータが既知のマルチビューステレオ(MVS)は、基本的に有効な深度範囲内の1次元探索問題である。
最近の深層学習に基づくMVS法は、一般的に深度範囲の深度仮説を密にサンプリングし、深度予測のためにメモリを消費する3Dコストボリュームを構築する。
粗大なサンプリング戦略は、このオーバーヘッド問題をある程度緩和するが、MVSの効率は依然として未解決の課題である。
本研究では,メモリフットプリントを著しく低減する一方で,最先端の奥行き予測性能を明らかに向上させる高効率mvs手法を提案する。
効率と有効性の両方を考慮して, MVS にとって検索戦略が合理的に最適かを検討する。
まず,二項探索問題としてmvsを定式化し,mvsに対する一般化二項探索ネットワークを提案する。
具体的には、各ステップで深さ範囲を2つのビンに分割し、両側に1つのエラー許容ビンを追加する。
真深度を含むビンを特定するために分類を行う。
また,分類誤りの処理,外乱サンプルの処理,トレーニングメモリの低減という3つのメカニズムを設計する。
新たな定式化により,各ステップで非常に少数の深度仮説をサンプリングするのみとなり,メモリ効率が向上し,高速なトレーニング収束が容易となった。
競合ベンチマーク実験により,本手法はメモリの少ない最先端の精度を実現する。
特に,本手法は,DTUデータセットにおける0.289点の総合スコアを取得し,各学習手法のうち,タンクとテンプルの先進的データセットに挑戦する第一位となる。
トレーニングされたモデルとコードはhttps://github.com/MiZhenxing/GBi-Netでリリースされる。
関連論文リスト
- NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - IterMVS: Iterative Probability Estimation for Efficient Multi-View
Stereo [71.84742490020611]
IterMVSは高解像度マルチビューステレオのための新しいデータ駆動方式である。
隠れ状態の深さの画素単位の確率分布を符号化するGRUに基づく新しい推定器を提案する。
DTU, タンク&テンプル, ETH3Dにおける本手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2021-12-09T18:58:02Z) - PatchMatch-RL: Deep MVS with Pixelwise Depth, Normal, and Visibility [23.427619869594437]
トレーニング可能なコストと正規化の利点を画素単位の推定と組み合わせた,エンドツーエンドのトレーニング可能なPatchMatchベースのMVSアプローチを提案する。
我々は、広く使われているMVSベンチマーク、ETH3D、タンク、テンプル(TnT)について評価する。
論文 参考訳(メタデータ) (2021-08-19T23:14:48Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - ISTA-NAS: Efficient and Consistent Neural Architecture Search by Sparse
Coding [86.40042104698792]
スパース符号問題としてニューラルアーキテクチャ探索を定式化する。
実験では、CIFAR-10の2段階法では、検索にわずか0.05GPUしか必要としない。
本手法は,CIFAR-10とImageNetの両方において,評価時間のみのコストで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-13T04:34:24Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z) - Fast-MVSNet: Sparse-to-Dense Multi-View Stereo With Learned Propagation
and Gauss-Newton Refinement [46.8514966956438]
本稿では,MVSにおける高速かつ高精度な深度推定のための,スパース・トゥ・ディエンス・サース・トゥ・ファインメント・フレームワークであるFast-MVSNetを提案する。
具体的には、Fast-MVSNetにおいて、スパース深度マップと高分解能深度マップを学習するためのスパースコストボリュームを最初に構築する。
最終的に、深度マップをさらに最適化するために、単純だが効率的なガウスニュートン層が提案されている。
論文 参考訳(メタデータ) (2020-03-29T13:31:00Z) - DELTAS: Depth Estimation by Learning Triangulation And densification of
Sparse points [14.254472131009653]
多視点ステレオ (MVS) は, 能動深度センシングの精度と単眼深度推定の実用性の間の黄金平均値である。
3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。
まず、(a)興味点の記述子を検出して評価し、次に(b)興味点の小さな集合をマッチングして三角測量し、最後に(c)CNNを用いてこのスパースな3D点の集合を密度化することで、効率的な深さ推定手法を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:41Z) - 3DSSD: Point-based 3D Single Stage Object Detector [61.67928229961813]
本稿では,3DSSDと命名された点ベース3次元単段物体検出器を提案し,精度と効率のバランスが良好であることを示す。
提案手法は,最先端のボクセルをベースとした一段法を大差で上回り,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-02-24T12:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。