論文の概要: Prism: Semi-Supervised Multi-View Stereo with Monocular Structure Priors
- arxiv url: http://arxiv.org/abs/2412.05771v1
- Date: Sun, 08 Dec 2024 01:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:11.739205
- Title: Prism: Semi-Supervised Multi-View Stereo with Monocular Structure Priors
- Title(参考訳): Prism: 単分子構造を持つ半スーパービジョンのマルチビューステレオ
- Authors: Alex Rich, Noah Stier, Pradeep Sen, Tobias Höllerer,
- Abstract要約: そこで本研究では,実画像とレンダリング画像の同時学習を可能にする,半教師付き学習フレームワークを提案する。
知覚画像のメトリクスにインスパイアされ、深い特徴損失と多スケール統計損失により、MVSと単分子予測を比較した。
未ラベルのスマートフォンビデオと、MVSネットワークをトレーニングするためのフォトリアリスティックな合成データセットの両方を使用するための扉を開く。
- 参考スコア(独自算出の注目度): 14.561663136121231
- License:
- Abstract: The promise of unsupervised multi-view-stereo (MVS) is to leverage large unlabeled datasets, yet current methods underperform when training on difficult data, such as handheld smartphone videos of indoor scenes. Meanwhile, high-quality synthetic datasets are available but MVS networks trained on these datasets fail to generalize to real-world examples. To bridge this gap, we propose a semi-supervised learning framework that allows us to train on real and rendered images jointly, capturing structural priors from synthetic data while ensuring parity with the real-world domain. Central to our framework is a novel set of losses that leverages powerful existing monocular relative-depth estimators trained on the synthetic dataset, transferring the rich structure of this relative depth to the MVS predictions on unlabeled data. Inspired by perceptual image metrics, we compare the MVS and monocular predictions via a deep feature loss and a multi-scale statistical loss. Our full framework, which we call Prism, achieves large quantitative and qualitative improvements over current unsupervised and synthetic-supervised MVS networks. This is a best-case-scenario result, opening the door to using both unlabeled smartphone videos and photorealistic synthetic datasets for training MVS networks.
- Abstract(参考訳): 教師なしマルチビューステレオ(MVS)の約束は、大規模なラベル付けされていないデータセットを活用することであるが、現在の方法は、屋内シーンのハンドヘルドスマートフォンビデオのような、困難なデータでトレーニングする際にはパフォーマンスが低下している。
一方、高品質な合成データセットは利用可能だが、これらのデータセットでトレーニングされたMVSネットワークは、実世界の例に一般化できない。
このギャップを埋めるため,本研究では,実画像とレンダリング画像の同時トレーニングを可能にする半教師付き学習フレームワークを提案する。
我々のフレームワークの中心は、合成データセットで訓練された強力な単分子相対深度推定器を活用する新しい損失セットであり、この相対深さのリッチな構造をラベルなしデータ上のMVS予測に転送する。
知覚画像のメトリクスにインスパイアされ、深い特徴損失と多スケール統計損失により、MVSと単分子予測を比較した。
当社のフルフレームワークはPrismと呼ばれ、現在の教師なしおよび合成教師付きMVSネットワークに対して、定量および定性的な大幅な改善を実現しています。
これはベストケースシナリオの結果で、ラベルなしのスマートフォンビデオと、MVSネットワークをトレーニングするためのフォトリアリスティックな合成データセットの両方を使用するための扉を開く。
関連論文リスト
- Mono2Stereo: Monocular Knowledge Transfer for Enhanced Stereo Matching [7.840781070208874]
ステレオマッチング,すなわちMono2Stereoを強化するために,モノラルな知識伝達を活用することを提案する。
合成データ事前学習と実世界のデータ微調整を併用した2段階の学習プロセスによる知識伝達を導入する。
実験の結果,事前学習したモデルでは強いゼロショット能力を示すことがわかった。
論文 参考訳(メタデータ) (2024-11-14T03:01:36Z) - Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV &
CribsTV [50.616892315086574]
本稿では,SlowTV と CribsTV の2つの新しいデータセットを提案する。
これらは、一般公開されているYouTubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームが含まれている。
我々はこれらのデータセットを活用し、ゼロショット一般化の難しい課題に取り組む。
論文 参考訳(メタデータ) (2024-03-03T17:29:03Z) - GEM: Boost Simple Network for Glass Surface Segmentation via Vision Foundation Models [7.423981028880871]
ガラスの表面検出は、その透明さと反射特性に固有の曖昧さのために難しい課題である。
我々は、既存の2つのビジョン基盤モデル(VFM)の能力をフル活用して、これらの問題を解決することを提案する。
我々のGEMは、これらの2つのVFMの助けを借りて、新しい最先端の性能を確立し、2.1%のIoU改善でGlassSemNetを抜いた。
論文 参考訳(メタデータ) (2023-07-22T08:37:23Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - Stereo Matching by Self-supervision of Multiscopic Vision [65.38359887232025]
カメラ位置の整列で撮影した複数の画像を利用したステレオマッチングのための新しい自己監視フレームワークを提案する。
ネットワークを最適化するために、クロスフォトメトリックロス、不確実性を認識した相互監督損失、および新しい平滑性損失が導入されます。
我々のモデルは、KITTIデータセット上の以前の教師なし手法よりも、より良い不均一性マップを得る。
論文 参考訳(メタデータ) (2021-04-09T02:58:59Z) - Improving Deep Stereo Network Generalization with Geometric Priors [93.09496073476275]
地上の真実が密集した多様な現実世界のシーンの大規模なデータセットを得ることは困難である。
多くのアルゴリズムは、似たようなシーンや合成データセットの小さな実世界のデータセットに依存している。
本稿では,シーン幾何学の事前知識をエンド・ツー・エンドのステレオネットワークに統合し,ネットワークの一般化を支援することを提案する。
論文 参考訳(メタデータ) (2020-08-25T15:24:02Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。