論文の概要: Lightweight and Accurate Multi-View Stereo with Confidence-Aware Diffusion Model
- arxiv url: http://arxiv.org/abs/2509.15220v1
- Date: Thu, 18 Sep 2025 17:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.397679
- Title: Lightweight and Accurate Multi-View Stereo with Confidence-Aware Diffusion Model
- Title(参考訳): 信頼度を考慮した拡散モデルを用いた軽量・高精度多視点ステレオ
- Authors: Fangjinhua Wang, Qingshan Xu, Yew-Soon Ong, Marc Pollefeys,
- Abstract要約: 本稿では,MVSに拡散モデルを導入する新しいMVSフレームワークを提案する。
深度推定の識別特性を考慮し,拡散過程を導出する条件エンコーダを設計する。
本稿では,新しいMVSフレームワークであるDiffMVSとCasMVSの2つの新しいMVS手法を提案する。
- 参考スコア(独自算出の注目度): 81.01939699480094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To reconstruct the 3D geometry from calibrated images, learning-based multi-view stereo (MVS) methods typically perform multi-view depth estimation and then fuse depth maps into a mesh or point cloud. To improve the computational efficiency, many methods initialize a coarse depth map and then gradually refine it in higher resolutions. Recently, diffusion models achieve great success in generation tasks. Starting from a random noise, diffusion models gradually recover the sample with an iterative denoising process. In this paper, we propose a novel MVS framework, which introduces diffusion models in MVS. Specifically, we formulate depth refinement as a conditional diffusion process. Considering the discriminative characteristic of depth estimation, we design a condition encoder to guide the diffusion process. To improve efficiency, we propose a novel diffusion network combining lightweight 2D U-Net and convolutional GRU. Moreover, we propose a novel confidence-based sampling strategy to adaptively sample depth hypotheses based on the confidence estimated by diffusion model. Based on our novel MVS framework, we propose two novel MVS methods, DiffMVS and CasDiffMVS. DiffMVS achieves competitive performance with state-of-the-art efficiency in run-time and GPU memory. CasDiffMVS achieves state-of-the-art performance on DTU, Tanks & Temples and ETH3D. Code is available at: https://github.com/cvg/diffmvs.
- Abstract(参考訳): 校正画像から3D形状を再構築するために、学習ベースのマルチビューステレオ(MVS)法は、一般的にマルチビュー深度推定を行い、メッシュやポイントクラウドに深度マップを融合させる。
計算効率を向上させるために、多くの手法が粗い深度マップを初期化し、より高解像度で徐々に洗練する。
近年,拡散モデルは生成タスクにおいて大きな成功を収めている。
ランダムノイズから始めると、拡散モデルは反復的復調法により徐々にサンプルを回復する。
本稿では,MVSにおける拡散モデルを導入した新しいMVSフレームワークを提案する。
具体的には、条件付き拡散過程として深度微細化を定式化する。
深度推定の識別特性を考慮し,拡散過程を導出する条件エンコーダを設計する。
本稿では,軽量な2次元U-Netと畳み込みGRUを組み合わせた新しい拡散ネットワークを提案する。
さらに,拡散モデルにより推定される信頼度に基づいて,適応的に深度仮説をサンプリングするための新しい信頼度に基づくサンプリング手法を提案する。
本稿では,新しいMVSフレームワークであるDiffMVSとCasDiffMVSの2つの新しいMVS手法を提案する。
DiffMVSは、実行時とGPUメモリにおける最先端の効率と競合する性能を達成する。
CasDiffMVSはDTU、タンク&テンプル、ETH3Dで最先端のパフォーマンスを達成する。
コードは、https://github.com/cvg/diffmvs.comで入手できる。
関連論文リスト
- FVGen: Accelerating Novel-View Synthesis with Adversarial Video Diffusion Distillation [7.731788894265875]
本稿では,ビデオ拡散モデル(VDM)を用いた高速な新規ビュー合成を可能にするフレームワークであるFVGenについて,わずか4つのサンプリングステップで述べる。
我々のフレームワークは、サンプリング時間を90%以上削減しつつ、類似の(あるいはさらに良い)視覚的品質で、同じ数の新規ビューを生成します。
論文 参考訳(メタデータ) (2025-08-08T15:22:41Z) - TADA: Improved Diffusion Sampling with Training-free Augmented Dynamics [42.99251753481681]
我々は,ImageNet512 上で比較 FID を比較対象とするアートソルバの現在の状態よりも最大 186% 以上高速な新しいサンプリング手法を提案する。
提案手法の鍵は,高次元初期雑音を用いて,より詳細なサンプルを生成することである。
論文 参考訳(メタデータ) (2025-06-26T20:30:27Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - One at a Time: Progressive Multi-step Volumetric Probability Learning
for Reliable 3D Scene Perception [59.37727312705997]
本稿では,複雑な3次元ボリューム表現学習を生成段階の列に分解することを提案する。
強力な生成拡散モデルにより達成された最近の進歩を考えると、我々はVPDと呼ばれる多段階学習フレームワークを導入する。
SSCタスクでは、Semantic KITTIデータセット上でLiDARベースのメソッドを初めて越える作業として際立っている。
論文 参考訳(メタデータ) (2023-06-22T05:55:53Z) - The Surprising Effectiveness of Diffusion Models for Optical Flow and
Monocular Depth Estimation [42.48819460873482]
拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。
また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
論文 参考訳(メタデータ) (2023-06-02T21:26:20Z) - IterMVS: Iterative Probability Estimation for Efficient Multi-View
Stereo [71.84742490020611]
IterMVSは高解像度マルチビューステレオのための新しいデータ駆動方式である。
隠れ状態の深さの画素単位の確率分布を符号化するGRUに基づく新しい推定器を提案する。
DTU, タンク&テンプル, ETH3Dにおける本手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2021-12-09T18:58:02Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。