論文の概要: Self-supervised Learning of Depth Inference for Multi-view Stereo
- arxiv url: http://arxiv.org/abs/2104.02972v1
- Date: Wed, 7 Apr 2021 07:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:51:05.536192
- Title: Self-supervised Learning of Depth Inference for Multi-view Stereo
- Title(参考訳): 多視点ステレオの奥行き推定の自己教師あり学習
- Authors: Jiayu Yang, Jose M. Alvarez, Miaomiao Liu
- Abstract要約: マルチビューステレオネットワークのための自己監視型学習フレームワークを提案する。
まず、教師なし学習フレームワークの下で、深度マップを初期擬似ラベルとして見積もることから始める。
我々は注意深く設計されたパイプラインを用いて初期擬似ラベルを洗練する。
- 参考スコア(独自算出の注目度): 36.320984882009775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent supervised multi-view depth estimation networks have achieved
promising results. Similar to all supervised approaches, these networks require
ground-truth data during training. However, collecting a large amount of
multi-view depth data is very challenging. Here, we propose a self-supervised
learning framework for multi-view stereo that exploit pseudo labels from the
input data. We start by learning to estimate depth maps as initial pseudo
labels under an unsupervised learning framework relying on image reconstruction
loss as supervision. We then refine the initial pseudo labels using a carefully
designed pipeline leveraging depth information inferred from higher resolution
images and neighboring views. We use these high-quality pseudo labels as the
supervision signal to train the network and improve, iteratively, its
performance by self-training. Extensive experiments on the DTU dataset show
that our proposed self-supervised learning framework outperforms existing
unsupervised multi-view stereo networks by a large margin and performs on par
compared to the supervised counterpart. Code is available at
https://github.com/JiayuYANG/Self-supervised-CVP-MVSNet.
- Abstract(参考訳): 最近の教師付きマルチビュー深度推定ネットワークは有望な結果を得た。
すべての教師付きアプローチと同様に、これらのネットワークはトレーニング中に地上データを必要とする。
しかし,多視点深度データの大量収集は非常に困難である。
本稿では,入力データから擬似ラベルを利用するマルチビューステレオのための自己教師付き学習フレームワークを提案する。
まず,画像再構成損失を監督とする教師なし学習フレームワークにおいて,初期擬似ラベルとして深度マップを推定することから始める。
次に,高分解能画像と隣接ビューから推定された奥行き情報を活用した,注意深く設計されたパイプラインを用いて,初期擬似ラベルを洗練する。
これらの高品質擬似ラベルを監視信号としてネットワークを訓練し,自己学習による性能向上を反復的に行う。
dtuデータセットの広範な実験により,提案する自己教師付き学習フレームワークは,既存の教師なしマルチビューステレオネットワークを大きなマージンで上回り,教師なしステレオネットワークと同等の性能を発揮することが示された。
コードはhttps://github.com/JiayuYANG/Self-supervised-CVP-MVSNetで公開されている。
関連論文リスト
- Unsupervised Stereo Matching Network For VHR Remote Sensing Images Based On Error Prediction [5.68487023151187]
VHRリモートセンシング画像のための新しい教師なしステレオマッチングネットワークを提案する。
予測誤差で信頼性をブリッジする軽量モジュールを導入し、コアモデルを洗練する。
US3DおよびWHU-Stereoデータセットの実験結果は、提案したネットワークが他の教師なしネットワークと比較して精度が高いことを示す。
論文 参考訳(メタデータ) (2024-08-14T09:59:04Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Unsupervised Monocular Depth Learning with Integrated Intrinsics and
Spatio-Temporal Constraints [61.46323213702369]
本研究は,大規模深度マップとエゴモーションを予測可能な教師なし学習フレームワークを提案する。
本結果は,KITTI運転データセットの複数シーケンスにおける現在の最先端技術と比較して,高い性能を示す。
論文 参考訳(メタデータ) (2020-11-02T22:26:58Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z) - Self-supervised Object Tracking with Cycle-consistent Siamese Networks [55.040249900677225]
我々は、オブジェクト追跡のためのサイクル一貫性の自己監視フレームワークにおいて、エンドツーエンドのSiameseネットワークを利用する。
トラッキングフレームワークにシームズ領域の提案とマスク回帰ネットワークを統合することで,各フレームのアノテーションを使わずに,より高速で正確なトラッカーを学習できるようにすることを提案する。
論文 参考訳(メタデータ) (2020-08-03T04:10:38Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。