論文の概要: CL-MVSNet: Unsupervised Multi-view Stereo with Dual-level Contrastive Learning
- arxiv url: http://arxiv.org/abs/2503.08219v1
- Date: Tue, 11 Mar 2025 09:39:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:38.334668
- Title: CL-MVSNet: Unsupervised Multi-view Stereo with Dual-level Contrastive Learning
- Title(参考訳): CL-MVSNet:デュアルレベルのコントラスト学習による教師なしマルチビューステレオ
- Authors: Kaiqiang Xiong, Rui Peng, Zhe Zhang, Tianxing Feng, Jianbo Jiao, Feng Gao, Ronggang Wang,
- Abstract要約: CL-MVSNetという2段階のコントラスト学習手法を提案する。
具体的には、2つの対照的な分岐を教師なしMVSフレームワークに統合し、追加の監視信号を構築する。
提案手法は,すべてのエンドツーエンドのMVSフレームワークの最先端性能を達成し,微調整を行なわずに教師付きフレームワークをかなりの差で上回っている。
- 参考スコア(独自算出の注目度): 32.65909515998849
- License:
- Abstract: Unsupervised Multi-View Stereo (MVS) methods have achieved promising progress recently. However, previous methods primarily depend on the photometric consistency assumption, which may suffer from two limitations: indistinguishable regions and view-dependent effects, e.g., low-textured areas and reflections. To address these issues, in this paper, we propose a new dual-level contrastive learning approach, named CL-MVSNet. Specifically, our model integrates two contrastive branches into an unsupervised MVS framework to construct additional supervisory signals. On the one hand, we present an image-level contrastive branch to guide the model to acquire more context awareness, thus leading to more complete depth estimation in indistinguishable regions. On the other hand, we exploit a scene-level contrastive branch to boost the representation ability, improving robustness to view-dependent effects. Moreover, to recover more accurate 3D geometry, we introduce an L0.5 photometric consistency loss, which encourages the model to focus more on accurate points while mitigating the gradient penalty of undesirable ones. Extensive experiments on DTU and Tanks&Temples benchmarks demonstrate that our approach achieves state-of-the-art performance among all end-to-end unsupervised MVS frameworks and outperforms its supervised counterpart by a considerable margin without fine-tuning.
- Abstract(参考訳): 教師なしマルチビューステレオ(MVS)手法は,近年,有望な進歩を遂げている。
しかし、従来の手法は主に光度整合性の仮定に依存しており、これは区別できない領域とビュー依存効果(例えば、低テクスチャ領域、反射)の2つの制限に悩まされる可能性がある。
そこで本稿では,CL-MVSNetという2段階のコントラスト学習手法を提案する。
具体的には、2つの対照的な分岐を教師なしMVSフレームワークに統合し、追加の監視信号を構築する。
一方,画像レベルのコントラスト分岐は,モデルがよりコンテキスト認識を得るように誘導し,不明瞭な領域においてより完全な深度推定を行う。
一方、シーンレベルのコントラッシブブランチを利用して表現能力を向上し、ビュー依存効果に対するロバスト性を向上させる。
さらに、より正確な3次元形状を復元するために、L0.5光度整合損失を導入し、望ましくない点の勾配のペナルティを緩和しながら、より正確な点に焦点を合わせることを奨励する。
DTU と Tanks&Temples ベンチマークの大規模な実験により、我々の手法は、すべてのエンドツーエンドの MVS フレームワークで最先端のパフォーマンスを達成し、微調整なしで監督対象をかなり上回っていることを示した。
関連論文リスト
- A Black-Box Evaluation Framework for Semantic Robustness in Bird's Eye View Detection [24.737984789074094]
我々は,BEVモデルを騙すために3つの一般的な意味摂動を逆向きに最適化するロバストネス評価フレームワークを開発する。
セマンティック摂動を最適化することで生じる課題に対処するため、mAPメトリックを置き換えるスムーズな距離に基づく代理関数を設計する。
最近の10種類のBEVモデルのセマンティックロバスト性に関するベンチマークを提供する。
論文 参考訳(メタデータ) (2024-12-18T14:53:38Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition [68.6707284662443]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。
1つの重要な側面は、時間空間照明と外観強化バージョンに特化した一貫性の制約を定式化することである。
本稿では,レチネックスを基盤とした革新的なビデオ分解戦略について述べる。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - EMR-MSF: Self-Supervised Recurrent Monocular Scene Flow Exploiting
Ego-Motion Rigidity [13.02735046166494]
自己監督型単分子シーンフロー推定は、単純で経済的なセンサーの設置に注目が集まっている。
本稿では,教師あり学習の範囲内でのネットワークアーキテクチャ設計の利点を活かして,EMR-MSFという優れたモデルを提案する。
KITTIのシーンフローベンチマークでは,最先端の自己監督単分子法のSF-all測定値が44%向上した。
論文 参考訳(メタデータ) (2023-09-04T00:30:06Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z) - PatchMVSNet: Patch-wise Unsupervised Multi-View Stereo for
Weakly-Textured Surface Reconstruction [2.9896482273918434]
本稿では,多視点画像の制約を活かしたロバストな損失関数を提案し,あいまいさを緩和する。
我々の戦略は任意の深さ推定フレームワークで実装することができ、任意の大規模MVSデータセットでトレーニングすることができる。
提案手法は,DTU,タンク・アンド・テンプル,ETH3Dなどの一般的なベンチマーク上での最先端手法の性能に達する。
論文 参考訳(メタデータ) (2022-03-04T07:05:23Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - Digging into Uncertainty in Self-supervised Multi-view Stereo [57.04768354383339]
自己教師型学習のための新しいuncertainty reduction Multi-view Stereo(UMVS)フレームワークを提案する。
我々のフレームワークは、教師なしのMVSメソッドの中で最高のパフォーマンスを達成し、教師なしの対戦相手と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-08-30T02:53:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。