論文の概要: Digging into Uncertainty in Self-supervised Multi-view Stereo
- arxiv url: http://arxiv.org/abs/2108.12966v1
- Date: Mon, 30 Aug 2021 02:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 22:04:08.572562
- Title: Digging into Uncertainty in Self-supervised Multi-view Stereo
- Title(参考訳): 自己教師付きマルチビューステレオにおける不確実性の検討
- Authors: Hongbin Xu, Zhipeng Zhou, Yali Wang, Wenxiong Kang, Baigui Sun, Hao
Li, Yu Qiao
- Abstract要約: 自己教師型学習のための新しいuncertainty reduction Multi-view Stereo(UMVS)フレームワークを提案する。
我々のフレームワークは、教師なしのMVSメソッドの中で最高のパフォーマンスを達成し、教師なしの対戦相手と競合する性能を実現している。
- 参考スコア(独自算出の注目度): 57.04768354383339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised Multi-view stereo (MVS) with a pretext task of image
reconstruction has achieved significant progress recently. However, previous
methods are built upon intuitions, lacking comprehensive explanations about the
effectiveness of the pretext task in self-supervised MVS. To this end, we
propose to estimate epistemic uncertainty in self-supervised MVS, accounting
for what the model ignores. Specially, the limitations can be categorized into
two types: ambiguious supervision in foreground and invalid supervision in
background. To address these issues, we propose a novel Uncertainty reduction
Multi-view Stereo (UMVS) framework for self-supervised learning. To alleviate
ambiguous supervision in foreground, we involve extra correspondence prior with
a flow-depth consistency loss. The dense 2D correspondence of optical flows is
used to regularize the 3D stereo correspondence in MVS. To handle the invalid
supervision in background, we use Monte-Carlo Dropout to acquire the
uncertainty map and further filter the unreliable supervision signals on
invalid regions. Extensive experiments on DTU and Tank&Temples benchmark show
that our U-MVS framework achieves the best performance among unsupervised MVS
methods, with competitive performance with its supervised opponents.
- Abstract(参考訳): 画像再構成を前提とした自己監督型マルチビューステレオ(MVS)は,近年大きな進歩を遂げている。
しかし、従来の手法は直観に基づいて構築されており、自己教師型MVSにおけるプリテキストタスクの有効性に関する包括的説明が欠如している。
そこで本研究では,自己監督型MVSにおける疫学的不確実性を,モデルが無視するものを考慮して推定する。
特に、制限は前景における曖昧な監督と背景における無効な監督の2つのタイプに分類できる。
そこで本研究では, 自己教師付き学習のための不確実性低減マルチビューステレオ(umvs)フレームワークを提案する。
前景における曖昧な監視を緩和するために、フロー深度一貫性の喪失に先立って追加の対応を行う。
光学流の高密度2次元対応は、MVSにおける3次元ステレオ対応の正則化に使用される。
本研究ではモンテカルロ・ドロップアウトを用いて不確実性マップを取得し,不確実性領域における信頼できない監視信号のフィルタリングを行う。
DTU と Tank&Temples ベンチマークの大規模な実験により、我々の U-MVS フレームワークは教師なし MVS 手法の中で最高の性能を達成し、教師なしの対戦相手と競合する性能を示した。
関連論文リスト
- MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View
Stereo [60.75684891484619]
我々は、MVSパイプラインの様々なコンポーネントを強化するために、注意の特性を最大化するMVSFormer++を紹介する。
特徴エンコーダとコスト容積正規化には異なる注意機構を用い,それぞれ特徴量と空間的アグリゲーションに着目した。
DTU, タンク・アンド・テンプル, BlendedMVS, ETH3Dの総合的な実験により, 提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-01-22T03:22:49Z) - Self-Supervised Bird's Eye View Motion Prediction with Cross-Modality
Signals [38.20643428486824]
密集した鳥の視線(BEV)の動きを自己監督的に学習することは、ロボット工学と自律運転の新たな研究である。
現在の自己監督法は主に点雲間の点対応に依存する。
マルチモダリティデータを活用することで,これらの問題に効果的に対処する,新たなクロスモダリティ自己教師型トレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-01-21T14:09:49Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - ES-MVSNet: Efficient Framework for End-to-end Self-supervised Multi-View
Stereo [11.41432976633312]
本研究では、ES-MVSNetと呼ばれるエンドツーエンドのMVSのための効率的なフレームワークを提案する。
モデル性能を損なうことなくメモリ使用量を43%削減するメモリ効率アーキテクチャを提案する。
非対称なビュー選択ポリシーと領域認識深度整合性の設計により、新たな整合性信号のサードパーティモデルに頼ることなく、E2E自己監督型MVS手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-04T08:16:47Z) - Robustness of Unsupervised Representation Learning without Labels [92.90480374344777]
モデルとタスクに依存しない,ラベルのない,教師なしのロバストネス尺度のファミリーを提案する。
本研究は, 線形プローブによる検証を行い, MOCOv2の場合, 対向トレーニングの結果が3倍の精度で得られたことを示す。
論文 参考訳(メタデータ) (2022-10-08T18:03:28Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - Unsupervised Visual Attention and Invariance for Reinforcement Learning [25.673868326662024]
我々は,タスクに無関係に干渉要因を分散させる独立したモジュールを開発し,視覚に基づく強化学習政策の「クリーン」な観察を行う。
すべてのコンポーネントは、手動アノテーションや環境内部へのアクセスなしに、監視されていない方法で最適化されます。
VAIは強力な一般化能力を示し、DeepMind Controlのベンチマークでは現在の最先端(SOTA)メソッドを15%から49%上回っている。
論文 参考訳(メタデータ) (2021-04-07T05:28:01Z) - What Matters in Unsupervised Optical Flow [51.45112526506455]
教師なし光流における鍵成分の集合を比較し解析する。
教師なしフローモデルに対する新しい改良点を多数構築する。
本稿では,従来の最先端技術よりもはるかに優れた非教師なしフロー技術を提案する。
論文 参考訳(メタデータ) (2020-06-08T19:36:26Z) - M^3VSNet: Unsupervised Multi-metric Multi-view Stereo Network [13.447649324253572]
本稿では,M3VSNet という無監督マルチメトリックMVSネットワークを提案する。
点雲再構成の堅牢性と完全性を改善するために,画素ワイドと特徴ワイドのロス関数を組み合わせた多値損失関数を提案する。
実験の結果,M3VSNetは最先端の教師なし手法を確立し,従来の教師なしMVSNetと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-30T09:26:51Z) - M^3VSNet: Unsupervised Multi-metric Multi-view Stereo Network [13.447649324253572]
本稿では,M3VSNet という無監督マルチメトリックMVSネットワークを提案する。
点雲再構成の堅牢性と完全性を改善するために,画素ワイドと特徴ワイドのロス関数を組み合わせた多値損失関数を提案する。
実験の結果,M3VSNetは最先端の教師なし手法を確立し,従来の教師なしMVSNetと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-21T02:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。