論文の概要: One at A Time: Multi-step Volumetric Probability Distribution Diffusion
for Depth Estimation
- arxiv url: http://arxiv.org/abs/2306.12681v2
- Date: Fri, 7 Jul 2023 08:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 14:56:54.119133
- Title: One at A Time: Multi-step Volumetric Probability Distribution Diffusion
for Depth Estimation
- Title(参考訳): 1回に1回:深さ推定のための多段階容積確率分布拡散
- Authors: Bohan Li, Jingxin Dong, Yunnan Wang, Jinming Liu, Lianying Yin, Wei
Zhao, Zheng Zhu, Xin Jin, Wenjun Zeng
- Abstract要約: 多段階分布近似法として深度推定タスクを定式化する。
我々は,拡散モデル(VPDD)を用いたマルコフ連鎖に従って,体積確率分布を段階的に(段階的に)段階的にモデル化する新しいパラダイムを導入する。
MVS と SSC のタスクでは,プラグインとプレイのVPDD が最先端のタスクよりも優れていることを示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 59.08791809527305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have explored the fundamental role of depth estimation in
multi-view stereo (MVS) and semantic scene completion (SSC). They generally
construct 3D cost volumes to explore geometric correspondence in depth, and
estimate such volumes in a single step relying directly on the ground truth
approximation. However, such problem cannot be thoroughly handled in one step
due to complex empirical distributions, especially in challenging regions like
occlusions, reflections, etc. In this paper, we formulate the depth estimation
task as a multi-step distribution approximation process, and introduce a new
paradigm of modeling the Volumetric Probability Distribution progressively
(step-by-step) following a Markov chain with Diffusion models (VPDD).
Specifically, to constrain the multi-step generation of volume in VPDD, we
construct a meta volume guidance and a confidence-aware contextual guidance as
conditional geometry priors to facilitate the distribution approximation. For
the sampling process, we further investigate an online filtering strategy to
maintain consistency in volume representations for stable training. Experiments
demonstrate that our plug-and-play VPDD outperforms the state-of-the-arts for
tasks of MVS and SSC, and can also be easily extended to different baselines to
get improvement. It is worth mentioning that we are the first camera-based work
that surpasses LiDAR-based methods on the SemanticKITTI dataset.
- Abstract(参考訳): 近年,マルチビューステレオ(MVS)とセマンティックシーン補完(SSC)における深度推定の基本的な役割について検討している。
彼らは一般的に3次元のコストボリュームを構築し、幾何学的対応を深く探求し、それらのボリュームを1ステップで推定する。
しかし、複雑な経験的分布、特に閉塞や反射などの挑戦的な領域において、そのような問題は1段階で完全には処理できない。
本稿では,多段階分布近似法として深度推定タスクを定式化し,拡散モデル(VPDD)を用いたマルコフ連鎖に従って,体積確率分布を段階的に(段階的に)モデル化する新しいパラダイムを提案する。
具体的には,VPDDにおけるボリュームの多段階生成を制限するため,分布近似を容易にするために,メタボリュームガイダンスとコンテクストガイダンスを構築した。
サンプリングプロセスでは,安定したトレーニングのためのボリューム表現の整合性を維持するためのオンラインフィルタリング戦略をさらに検討する。
実験により,MVS や SSC のタスクでは,プラグアンドプレイのVPDD が最先端のタスクよりも優れており,また,改善のためにさまざまなベースラインに容易に拡張可能であることが示された。
SemanticKITTIデータセット上でLiDARベースのメソッドを超えた最初のカメラベースの作業であることに注意してください。
関連論文リスト
- Learning-based Multi-View Stereo: A Survey [55.3096230732874]
MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。
ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-27T17:53:18Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - KVN: Keypoints Voting Network with Differentiable RANSAC for Stereo Pose
Estimation [1.1603243575080535]
我々は、よく知られた単分子ポーズ推定ネットワークに微分可能なRANSAC層を導入する。
本稿では, RANSACが提案した層の精度に果たす役割について述べる。
論文 参考訳(メタデータ) (2023-07-21T12:43:07Z) - Neural Volume Super-Resolution [49.879789224455436]
本稿では,シーンの体積表現を直接操作する超解像ネットワークを提案する。
提案手法を実現するために,複数の2次元特徴面にヒンジを付ける新しい3次元表現法を提案する。
多様な3Dシーンの多視点一貫したビューを超解し,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-12-09T04:54:13Z) - BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection
with Dynamic Temporal Stereo [15.479670314689418]
本稿では,マッチング候補のスケールを動的に選択するための効果的な時間ステレオ手法を提案する。
我々は、より価値のある候補を更新するための反復アルゴリズムを設計し、移動可能な候補に適応する。
BEVStereoは、nuScenesデータセットのカメラのみのトラックで、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-09-21T10:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。