論文の概要: PatchmatchNet: Learned Multi-View Patchmatch Stereo
- arxiv url: http://arxiv.org/abs/2012.01411v1
- Date: Wed, 2 Dec 2020 18:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:55:43.644156
- Title: PatchmatchNet: Learned Multi-View Patchmatch Stereo
- Title(参考訳): patchmatchnet: マルチビューのpatchmatchステレオを学ぶ
- Authors: Fangjinhua Wang, Silvano Galliani, Christoph Vogel, Pablo Speciale,
Marc Pollefeys
- Abstract要約: PatchmatchNetは、高解像度のマルチビューステレオのためのPatchmatchの新規で学習可能なカスケード定式化である。
PatchmatchNetは高速で低メモリを必要とするため、高解像度の画像を処理でき、3Dコストのボリューム正規化を採用する競合製品よりもリソース制限されたデバイスで実行するのに適している。
- 参考スコア(独自算出の注目度): 70.14789588576438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PatchmatchNet, a novel and learnable cascade formulation of
Patchmatch for high-resolution multi-view stereo. With high computation speed
and low memory requirement, PatchmatchNet can process higher resolution imagery
and is more suited to run on resource limited devices than competitors that
employ 3D cost volume regularization. For the first time we introduce an
iterative multi-scale Patchmatch in an end-to-end trainable architecture and
improve the Patchmatch core algorithm with a novel and learned adaptive
propagation and evaluation scheme for each iteration. Extensive experiments
show a very competitive performance and generalization for our method on DTU,
Tanks & Temples and ETH3D, but at a significantly higher efficiency than all
existing top-performing models: at least two and a half times faster than
state-of-the-art methods with twice less memory usage.
- Abstract(参考訳): PatchmatchNetは、高解像度のマルチビューステレオのためのPatchmatchの新規で学習可能なカスケード形式である。
PatchmatchNetは高い計算速度と低メモリ要求により、高解像度の画像を処理でき、3Dコストのボリューム正規化を採用する競合製品よりもリソース制限されたデバイスで実行するのに適している。
エンド・ツー・エンドのトレーニング可能なアーキテクチャで反復的マルチスケールのパッチマッチを導入し、新しい適応的伝搬と各イテレーションに対する評価スキームでPatchmatchコアアルゴリズムを改善した。
広範な実験により、dtu, tanks & temple, eth3dの手法の非常に競争力のある性能と一般化が示されたが、既存のすべてのトップパフォーマンスモデルよりもかなり高い効率を示した。
関連論文リスト
- Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - MP-MVS: Multi-Scale Windows PatchMatch and Planar Prior Multi-View
Stereo [7.130834755320434]
レジリエントで効果的なマルチビューステレオアプローチ(MP-MVS)を提案する。
マルチスケールウィンドウPatchMatch (mPM) を設計し, 信頼性の高い非テクスチャ領域の深さを求める。
他のマルチスケールアプローチとは対照的に、より高速で、PatchMatchベースのMVSアプローチに容易に拡張できる。
論文 参考訳(メタデータ) (2023-09-23T07:30:42Z) - Deep PatchMatch MVS with Learned Patch Coplanarity, Geometric
Consistency and Adaptive Pixel Sampling [19.412014102866507]
我々は、コプランナリティのパッチを学習し、幾何整合性を促進することにより、測光スコアを改善するための学習ベースのアプローチを構築した。
本稿では,より高解像度かつ高解像度なエンコーダでメモリを削減し,より大きな解像度でのトレーニングを可能にするための,適応的画素サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T07:29:03Z) - Curvature-guided dynamic scale networks for Multi-view Stereo [10.667165962654996]
本稿では,重み計算を伴わずにマッチングコストの性能を向上させるために,ロバストな特徴抽出ネットワークを学習することに焦点を当てる。
動的スケール特徴抽出ネットワーク,すなわちCDSFNetを提案する。
複数の新しい畳み込み層で構成され、それぞれが画像表面の通常の曲率でガイドされる各画素に対して適切なパッチスケールを選択することができる。
論文 参考訳(メタデータ) (2021-12-11T14:41:05Z) - IterMVS: Iterative Probability Estimation for Efficient Multi-View
Stereo [71.84742490020611]
IterMVSは高解像度マルチビューステレオのための新しいデータ駆動方式である。
隠れ状態の深さの画素単位の確率分布を符号化するGRUに基づく新しい推定器を提案する。
DTU, タンク&テンプル, ETH3Dにおける本手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2021-12-09T18:58:02Z) - PatchMatch-RL: Deep MVS with Pixelwise Depth, Normal, and Visibility [23.427619869594437]
トレーニング可能なコストと正規化の利点を画素単位の推定と組み合わせた,エンドツーエンドのトレーニング可能なPatchMatchベースのMVSアプローチを提案する。
我々は、広く使われているMVSベンチマーク、ETH3D、タンク、テンプル(TnT)について評価する。
論文 参考訳(メタデータ) (2021-08-19T23:14:48Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。