論文の概要: One at a Time: Progressive Multi-step Volumetric Probability Learning
for Reliable 3D Scene Perception
- arxiv url: http://arxiv.org/abs/2306.12681v3
- Date: Tue, 19 Dec 2023 02:03:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 00:31:42.691752
- Title: One at a Time: Progressive Multi-step Volumetric Probability Learning
for Reliable 3D Scene Perception
- Title(参考訳): 信頼できる3dシーン知覚のためのプログレッシブ・マルチステップ容積確率学習
- Authors: Bohan Li, Yasheng Sun, Jingxin Dong, Zheng Zhu, Jinming Liu, Xin Jin,
Wenjun Zeng
- Abstract要約: 本稿では,複雑な3次元ボリューム表現学習を生成段階の列に分解することを提案する。
強力な生成拡散モデルにより達成された最近の進歩を考えると、我々はVPDと呼ばれる多段階学習フレームワークを導入する。
SSCタスクでは、Semantic KITTIデータセット上でLiDARベースのメソッドを初めて越える作業として際立っている。
- 参考スコア(独自算出の注目度): 59.37727312705997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous studies have investigated the pivotal role of reliable 3D volume
representation in scene perception tasks, such as multi-view stereo (MVS) and
semantic scene completion (SSC). They typically construct 3D probability
volumes directly with geometric correspondence, attempting to fully address the
scene perception tasks in a single forward pass. However, such a single-step
solution makes it hard to learn accurate and convincing volumetric probability,
especially in challenging regions like unexpected occlusions and complicated
light reflections. Therefore, this paper proposes to decompose the complicated
3D volume representation learning into a sequence of generative steps to
facilitate fine and reliable scene perception. Considering the recent advances
achieved by strong generative diffusion models, we introduce a multi-step
learning framework, dubbed as VPD, dedicated to progressively refining the
Volumetric Probability in a Diffusion process. Extensive experiments are
conducted on scene perception tasks including multi-view stereo (MVS) and
semantic scene completion (SSC), to validate the efficacy of our method in
learning reliable volumetric representations. Notably, for the SSC task, our
work stands out as the first to surpass LiDAR-based methods on the
SemanticKITTI dataset.
- Abstract(参考訳): マルチビューステレオ(MVS)やセマンティック・シーン・コンプリート(SSC)といったシーン認識タスクにおいて,信頼性の高い3次元ボリューム表現が果たす重要な役割について多くの研究がなされている。
通常は3d確率ボリュームを幾何学的対応で直接構築し、1回のフォワードパスでシーン知覚タスクを完全に取り組もうとする。
しかし、このような単一ステップの解法では、特に予期せぬ閉塞や複雑な光反射といった困難な領域において、正確で説得力のある体積確率を学ぶことが困難になる。
そこで本稿では,複雑な3次元容積表現学習を生成段階の系列に分解し,高精細かつ信頼性の高いシーン知覚を実現する。
強い生成拡散モデルにより達成された最近の進歩を踏まえ,拡散過程における容積確率の漸進的改善を目的とした,VPDと呼ばれる多段階学習フレームワークを導入する。
多視点ステレオ(mvs)やセマンティクスシーン補完(ssc)を含むシーン知覚タスクに関する広範な実験を行い,信頼性の高いボリューム表現の学習における本手法の有効性を検証した。
注目すべきなのは、sscタスクでは、semantickittiデータセット上のlidarベースのメソッドを初めて越えた成果です。
関連論文リスト
- Learning-based Multi-View Stereo: A Survey [55.3096230732874]
MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。
ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-27T17:53:18Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - KVN: Keypoints Voting Network with Differentiable RANSAC for Stereo Pose
Estimation [1.1603243575080535]
我々は、よく知られた単分子ポーズ推定ネットワークに微分可能なRANSAC層を導入する。
本稿では, RANSACが提案した層の精度に果たす役割について述べる。
論文 参考訳(メタデータ) (2023-07-21T12:43:07Z) - Neural Volume Super-Resolution [49.879789224455436]
本稿では,シーンの体積表現を直接操作する超解像ネットワークを提案する。
提案手法を実現するために,複数の2次元特徴面にヒンジを付ける新しい3次元表現法を提案する。
多様な3Dシーンの多視点一貫したビューを超解し,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-12-09T04:54:13Z) - BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection
with Dynamic Temporal Stereo [15.479670314689418]
本稿では,マッチング候補のスケールを動的に選択するための効果的な時間ステレオ手法を提案する。
我々は、より価値のある候補を更新するための反復アルゴリズムを設計し、移動可能な候補に適応する。
BEVStereoは、nuScenesデータセットのカメラのみのトラックで、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-09-21T10:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。