論文の概要: Boosting Multi-View Stereo with Depth Foundation Model in the Absence of Real-World Labels
- arxiv url: http://arxiv.org/abs/2504.11845v1
- Date: Wed, 16 Apr 2025 08:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 21:16:31.954834
- Title: Boosting Multi-View Stereo with Depth Foundation Model in the Absence of Real-World Labels
- Title(参考訳): 実世界ラベルの存在下での深度基礎モデルによるマルチビューステレオの強化
- Authors: Jie Zhu, Bo Peng, Zhe Zhang, Bingzheng Liu, Jianjun Lei,
- Abstract要約: DFM-MVSと呼ばれる新しい手法を提案する。
具体的には、現実的なステレオ通信をシミュレートするために、奥行き先ベース擬似教師付きトレーニング機構を開発した。
DTU と Tanks & Temples のデータセットによる実験結果から,提案した DFM-MVS は実世界のラベルを使わずに既存の MVS 手法を著しく上回っていることが示された。
- 参考スコア(独自算出の注目度): 23.36740525849356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based Multi-View Stereo (MVS) methods have made remarkable progress in recent years. However, how to effectively train the network without using real-world labels remains a challenging problem. In this paper, driven by the recent advancements of vision foundation models, a novel method termed DFM-MVS, is proposed to leverage the depth foundation model to generate the effective depth prior, so as to boost MVS in the absence of real-world labels. Specifically, a depth prior-based pseudo-supervised training mechanism is developed to simulate realistic stereo correspondences using the generated depth prior, thereby constructing effective supervision for the MVS network. Besides, a depth prior-guided error correction strategy is presented to leverage the depth prior as guidance to mitigate the error propagation problem inherent in the widely-used coarse-to-fine network structure. Experimental results on DTU and Tanks & Temples datasets demonstrate that the proposed DFM-MVS significantly outperforms existing MVS methods without using real-world labels.
- Abstract(参考訳): 近年,Multi-View Stereo(MVS)法が注目されている。
しかし、実世界のラベルを使わずにネットワークを効果的にトレーニングする方法は、依然として難しい問題である。
本稿では,DFM-MVSと呼ばれる新しい手法であるビジョン基礎モデルの進歩を反映して,深度基礎モデルを利用して,実世界のラベルがない場合のMVSを向上する手法を提案する。
具体的には,MVSネットワークにおいて,事前に生成した深度を用いてリアルなステレオ通信をシミュレートするために,深度に基づく擬似教師付きトレーニング機構を開発した。
さらに、広く使われている粗大なネットワーク構造に固有の誤り伝播問題を緩和するためのガイダンスとして、奥行き事前誘導誤差補正戦略を提案する。
DTU と Tanks & Temples のデータセットによる実験結果から,提案した DFM-MVS は実世界のラベルを使わずに既存の MVS 手法を著しく上回っていることが示された。
関連論文リスト
- VistaDepth: Frequency Modulation With Bias Reweighting For Enhanced Long-Range Depth Estimation [8.66253032039513]
VistaDepthは適応周波数領域の機能拡張と適応重み付け機構を統合する新しいフレームワークである。
VistaDepth は拡散型 MDE 技術における最先端性能を実現し,特に遠隔地での正確な再構築に優れる。
論文 参考訳(メタデータ) (2025-04-21T13:30:51Z) - Multi-view Reconstruction via SfM-guided Monocular Depth Estimation [92.89227629434316]
マルチビュー幾何再構成のための新しい手法を提案する。
深度推定プロセスに、より強力なマルチビューであるSfM情報を組み込む。
本手法は, 従来の単分子深度推定法と比較して, 深度推定の精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-18T17:54:06Z) - MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View
Stereo [60.75684891484619]
我々は、MVSパイプラインの様々なコンポーネントを強化するために、注意の特性を最大化するMVSFormer++を紹介する。
特徴エンコーダとコスト容積正規化には異なる注意機構を用い,それぞれ特徴量と空間的アグリゲーションに着目した。
DTU, タンク・アンド・テンプル, BlendedMVS, ETH3Dの総合的な実験により, 提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-01-22T03:22:49Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - Sparse Depth-Guided Attention for Accurate Depth Completion: A
Stereo-Assisted Monitored Distillation Approach [7.902840502973506]
本研究では,教師モデルとしてステレオモデルを導入し,学生モデルの深度補修精度を向上させる。
自己教師型情報提供には,多視点奥行きの整合性やマルチスケールの最小再計画も活用する。
論文 参考訳(メタデータ) (2023-03-28T09:23:19Z) - DS-MVSNet: Unsupervised Multi-view Stereo via Depth Synthesis [11.346448410152844]
本稿では,DS-MVSNetを提案する。DS-MVSNetは,ソース深度合成を備えたエンドツーエンドの教師なしMVS構造である。
確率体積の情報をマイニングするために、確率体積と深度仮説をソースビューにスプラッターすることで、ソース深度を創造的に合成する。
一方,ソース深度を利用して参照画像を描画し,奥行きの整合性損失と深さの滑らかさ損失を提案する。
論文 参考訳(メタデータ) (2022-08-13T15:25:51Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Pyramid Frequency Network with Spatial Attention Residual Refinement
Module for Monocular Depth Estimation [4.397981844057195]
深度推定へのディープラーニングアプローチは急速に進歩しており、既存の手法よりも優れたパフォーマンスを提供している。
本研究では,既存の深層学習手法の弱弱さに対処するため,空間的注意残差補正モジュールを用いたピラミッド周波数ネットワークを提案する。
PFNは、Make3D、KITTI depth、NYUv2データセットの屋内および屋外の両方のシーンにおける最先端の手法よりも、より良い視覚的精度を実現する。
論文 参考訳(メタデータ) (2022-04-05T17:48:26Z) - DDL-MVS: Depth Discontinuity Learning for MVS Networks [0.5735035463793007]
本稿では,MVS法における深度不連続学習を提案する。
当社のアイデアを検証し,既存の学習ベースのMVSパイプラインに戦略を組み込むことが可能であることを実証する。
論文 参考訳(メタデータ) (2022-03-02T20:25:31Z) - Low-light Image Enhancement by Retinex Based Algorithm Unrolling and
Adjustment [50.13230641857892]
本稿では,低照度画像強調(LIE)問題に対する新たなディープラーニングフレームワークを提案する。
提案フレームワークは,大域的明るさと局所的明るさ感度の両方を考慮したアルゴリズムアンロールと調整ネットワークに着想を得た分解ネットワークを含む。
一連の典型的なLIEデータセットの実験では,既存の手法と比較して,定量的かつ視覚的に,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-02-12T03:59:38Z) - Digging into Uncertainty in Self-supervised Multi-view Stereo [57.04768354383339]
自己教師型学習のための新しいuncertainty reduction Multi-view Stereo(UMVS)フレームワークを提案する。
我々のフレームワークは、教師なしのMVSメソッドの中で最高のパフォーマンスを達成し、教師なしの対戦相手と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-08-30T02:53:08Z) - Continual Adaptation for Deep Stereo [52.181067640300014]
本稿では,難易度と変化の激しい環境に対処するために,深層ステレオネットワークの継続的適応パラダイムを提案する。
我々のパラダイムでは、オンラインモデルに継続的に適応するために必要な学習信号は、右から左への画像ワープや従来のステレオアルゴリズムによって自己監督から得られる。
我々のネットワークアーキテクチャと適応アルゴリズムは、初めてのリアルタイム自己適応型ディープステレオシステムを実現する。
論文 参考訳(メタデータ) (2020-07-10T08:15:58Z) - Channel Attention based Iterative Residual Learning for Depth Map
Super-Resolution [58.626803922196146]
我々は、合成データセットで訓練されたDSRモデルは制限的であり、実世界のDSRタスクを扱うのに有効ではないと論じる。
我々は、異なる深度センサの現実世界の劣化に対処するために2つの貢献をしている。
4つのモジュールからなる実世界のDSRのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-02T09:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。