論文の概要: MVSFormer: Multi-View Stereo with Pre-trained Vision Transformers and
Temperature-based Depth
- arxiv url: http://arxiv.org/abs/2208.02541v2
- Date: Mon, 8 Aug 2022 16:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 10:37:35.073628
- Title: MVSFormer: Multi-View Stereo with Pre-trained Vision Transformers and
Temperature-based Depth
- Title(参考訳): MVSFormer: 事前トレーニングされた視覚変換器と温度ベース深さを備えたマルチビューステレオ
- Authors: Chenjie Cao, Xinlin Ren, Yanwei Fu
- Abstract要約: 我々は、より信頼性の高い特徴表現を学習できるMVSFormerと呼ばれる、事前訓練されたViT拡張MVSネットワークを提案する。
MVSFormerはDTUデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 38.014569953980754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature representation learning is the key recipe for learning-based
Multi-View Stereo (MVS). As the common feature extractor of learning-based MVS,
vanilla Feature Pyramid Networks (FPN) suffers from discouraged feature
representations for reflection and texture-less areas, which limits the
generalization of MVS. Even FPNs worked with pre-trained Convolutional Neural
Networks (CNNs) fail to tackle these issues. On the other hand, Vision
Transformers (ViTs) have achieved prominent success in many 2D vision tasks.
Thus we ask whether ViTs can facilitate feature learning in MVS? In this paper,
we propose a pre-trained ViT enhanced MVS network called MVSFormer, which can
learn more reliable feature representations benefited by informative priors
from ViT. Then MVSFormer-P and MVSFormer-H are further proposed with freezed
ViT weights and trainable ones respectively. MVSFormer-P is more efficient
while MVSFormer-H can achieve superior performance. MVSFormer can be
generalized to various input resolutions with the efficient multi-scale
training strengthened by gradient accumulation. Moreover, we discuss the merits
and drawbacks of classification and regression-based MVS methods, and further
propose to unify them with a temperature-based strategy. MVSFormer achieves
state-of-the-art performance on the DTU dataset. Particularly, our anonymous
submission of MVSFormer is ranked in the Top-1 position on both intermediate
and advanced sets of the highly competitive Tanks-and-Temples leaderboard on
the day of submission compared with other published works. Codes and models
will be released soon.
- Abstract(参考訳): 特徴表現学習は、学習に基づくマルチビューステレオ(MVS)の鍵となるレシピである。
学習ベースMVSの一般的な特徴抽出器として、Vanilla Feature Pyramid Networks (FPN) は、MVSの一般化を制限するリフレクションやテクスチャレス領域の特徴表現の妨げとなる。
FPNでさえ、事前訓練された畳み込みニューラルネットワーク(CNN)ではこれらの問題に対処できない。
一方、視覚トランスフォーマー(vits)は多くの2次元視覚タスクで顕著な成功を収めている。
したがって、ViTsはMVSの機能学習を促進することができるのか?
本稿では,事前学習型VT拡張MVSネットワークであるMVSFormerを提案する。
また,MVSFormer-P と MVSFormer-H をそれぞれ凍結した ViT 重量とトレーニング可能な重量で提案する。
MVSFormer-Pは効率が良く、MVSFormer-Hは優れたパフォーマンスを実現する。
MVSFormerは、勾配蓄積により強化された効率的なマルチスケールトレーニングにより、様々な入力解像度に一般化することができる。
さらに,分類法と回帰型mvs法のメリットと欠点について検討し,さらに,温度に基づく戦略と一体化することを提案する。
MVSFormerはDTUデータセット上で最先端のパフォーマンスを達成する。
特に、MVSFormerの匿名提出は、他の出版物と比較して、競争の激しい戦車とテンプルズのリーダーボードの中間セットと先進セットの上位1位にランクされている。
コードとモデルはまもなくリリースされる。
関連論文リスト
- MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View
Stereo [60.75684891484619]
我々は、MVSパイプラインの様々なコンポーネントを強化するために、注意の特性を最大化するMVSFormer++を紹介する。
特徴エンコーダとコスト容積正規化には異なる注意機構を用い,それぞれ特徴量と空間的アグリゲーションに着目した。
DTU, タンク・アンド・テンプル, BlendedMVS, ETH3Dの総合的な実験により, 提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-01-22T03:22:49Z) - S-VolSDF: Sparse Multi-View Stereo Regularization of Neural Implicit
Surfaces [75.30792581941789]
暗黙の面のニューラルレンダリングは、3次元視覚アプリケーションでうまく機能する。
スパース入力画像のみが利用可能となると、形状と輝度のあいまいさの問題により出力品質が著しく低下する。
MVSソリューションを用いてニューラルレンダリング最適化の正規化を提案する。
論文 参考訳(メタデータ) (2023-03-30T21:10:58Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Rethinking the Multi-view Stereo from the Perspective of Rendering-based
Augmentation [71.2289832226846]
GigaMVSは、既存のMulti-View Stereo (MVS)アルゴリズムにいくつかの課題を提示している。
まず,最先端の学習ベースMVS手法である-MVSFormerを適用し,難解なシナリオを克服する。
ACMMP、OpenMVS、RealCaptureといった従来のPatchMatchアルゴリズムを利用して、大きなシーンの完全性をさらに向上する。
論文 参考訳(メタデータ) (2023-03-11T14:55:06Z) - An Empirical Study of End-to-End Video-Language Transformers with Masked
Visual Modeling [152.75131627307567]
Masked Visual Modeling (MVM) は視覚前トレーニングに有効であることが最近証明されている。
VidL学習におけるMVMの可能性について,系統的に検討した。
我々は、MVMで事前トレーニングされたVIOLETv2が、13のVidLベンチマークで顕著な改善を実現していることを示す。
論文 参考訳(メタデータ) (2022-09-04T06:30:32Z) - M^3VSNet: Unsupervised Multi-metric Multi-view Stereo Network [13.447649324253572]
本稿では,M3VSNet という無監督マルチメトリックMVSネットワークを提案する。
点雲再構成の堅牢性と完全性を改善するために,画素ワイドと特徴ワイドのロス関数を組み合わせた多値損失関数を提案する。
実験の結果,M3VSNetは最先端の教師なし手法を確立し,従来の教師なしMVSNetと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-30T09:26:51Z) - M^3VSNet: Unsupervised Multi-metric Multi-view Stereo Network [13.447649324253572]
本稿では,M3VSNet という無監督マルチメトリックMVSネットワークを提案する。
点雲再構成の堅牢性と完全性を改善するために,画素ワイドと特徴ワイドのロス関数を組み合わせた多値損失関数を提案する。
実験の結果,M3VSNetは最先端の教師なし手法を確立し,従来の教師なしMVSNetと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-21T02:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。