論文の概要: Robust Single-Stage Fully Sparse 3D Object Detection via Detachable Latent Diffusion
- arxiv url: http://arxiv.org/abs/2508.03252v1
- Date: Tue, 05 Aug 2025 09:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.88613
- Title: Robust Single-Stage Fully Sparse 3D Object Detection via Detachable Latent Diffusion
- Title(参考訳): 遅延拡散によるロバスト単段フルスパース3次元物体検出
- Authors: Wentao Qu, Guofeng Mei, Jing Wang, Yujiao Wu, Xiaoshui Huang, Liang Xiao,
- Abstract要約: Denoising Diffusion Probabilistic Models (DDPM) は堅牢な3Dオブジェクト検出タスクに成功している。
我々はRSDNetを提案する。RSDNetは軽量な denoising ネットワークを通じて潜在機能空間における denoising 過程を学習する。
これによってRSDNetは、マルチレベルの摂動下でのシーン分布を効果的に理解し、堅牢で信頼性の高い検出を実現することができる。
- 参考スコア(独自算出の注目度): 12.1872561062216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising Diffusion Probabilistic Models (DDPMs) have shown success in robust 3D object detection tasks. Existing methods often rely on the score matching from 3D boxes or pre-trained diffusion priors. However, they typically require multi-step iterations in inference, which limits efficiency. To address this, we propose a \textbf{R}obust single-stage fully \textbf{S}parse 3D object \textbf{D}etection \textbf{Net}work with a Detachable Latent Framework (DLF) of DDPMs, named RSDNet. Specifically, RSDNet learns the denoising process in latent feature spaces through lightweight denoising networks like multi-level denoising autoencoders (DAEs). This enables RSDNet to effectively understand scene distributions under multi-level perturbations, achieving robust and reliable detection. Meanwhile, we reformulate the noising and denoising mechanisms of DDPMs, enabling DLF to construct multi-type and multi-level noise samples and targets, enhancing RSDNet robustness to multiple perturbations. Furthermore, a semantic-geometric conditional guidance is introduced to perceive the object boundaries and shapes, alleviating the center feature missing problem in sparse representations, enabling RSDNet to perform in a fully sparse detection pipeline. Moreover, the detachable denoising network design of DLF enables RSDNet to perform single-step detection in inference, further enhancing detection efficiency. Extensive experiments on public benchmarks show that RSDNet can outperform existing methods, achieving state-of-the-art detection.
- Abstract(参考訳): Denoising Diffusion Probabilistic Models (DDPM) は堅牢な3Dオブジェクト検出タスクに成功している。
既存の方法は、しばしば3Dボックスや事前訓練された拡散前のスコアマッチングに依存する。
しかし、それらは一般的に、効率を制限する複数のステップの推論を必要とする。
そこで本研究では,DDPMのDLF(Detachable Latent Framework)を用いた3Dオブジェクトであるtextbf{D}etection \textbf{Net}を,RSDNetと命名した。
具体的には、RSDNetはマルチレベルデノナイジングオートエンコーダ(DAE)のような軽量なデノナイジングネットワークを通じて、潜在機能空間におけるデノナイジングプロセスを学ぶ。
これによってRSDNetは、マルチレベルの摂動下でのシーン分布を効果的に理解し、堅牢で信頼性の高い検出を実現することができる。
一方、DDPMのノイズ発生メカニズムを再構成し、DLFがマルチタイプ・マルチレベルノイズサンプルとターゲットの構築を可能にし、RSDNetのロバスト性を複数の摂動に高める。
さらに、オブジェクトの境界と形状を知覚する意味幾何学的条件ガイダンスを導入し、スパース表現における中心的特徴欠落問題を緩和し、RSDNetを完全なスパース検出パイプラインで実行できるようにする。
さらに、DLFの分離可能なデノイングネットワーク設計により、RSDNetは推論において単一ステップ検出が可能となり、さらに検出効率が向上する。
公開ベンチマークの大規模な実験により、RSDNetは既存の手法より優れ、最先端の検出が達成できることが示された。
関連論文リスト
- An End-to-End Robust Point Cloud Semantic Segmentation Network with Single-Step Conditional Diffusion Models [16.415380685459485]
既存の条件付き拡散確率モデル (DDPM) とノイズ・コンディション・フレームワーク (NCF) は, 3次元シーン理解作業において依然として困難である。
本稿では,CDSegNetというDDPMの条件付きノイズフレームワーク(CNF)に基づく,エンドツーエンドのロバストなセマンティックネットワークを提案する。
CNFのおかげで、CDSegNetは、非DDPMのような単一ステップの推論でセマンティックラベルを生成することができる。
論文 参考訳(メタデータ) (2024-11-25T11:53:55Z) - Diff3DETR:Agent-based Diffusion Model for Semi-supervised 3D Object Detection [33.58208166717537]
3次元物体検出は3次元シーンの理解に不可欠である。
半教師付き手法の最近の発展は、教師による学習フレームワークを用いて、未ラベルの点群に対する擬似ラベルを生成することにより、この問題を緩和しようとしている。
半教師付き3次元物体検出のためのエージェントベース拡散モデル(Diff3DETR)を提案する。
論文 参考訳(メタデータ) (2024-08-01T05:04:22Z) - M3DM-NR: RGB-3D Noisy-Resistant Industrial Anomaly Detection via Multimodal Denoising [63.39134873744748]
既存の産業異常検出手法は主に、原始RGB画像を用いた教師なし学習に重点を置いている。
本稿では,CLIPの強力なマルチモーダル識別機能を利用する新しい耐雑音性M3DM-NRフレームワークを提案する。
M3DM-NRは3D-RGBマルチモーダルノイズ異常検出において最先端の手法より優れていた。
論文 参考訳(メタデータ) (2024-06-04T12:33:02Z) - CSDNet: Detect Salient Object in Depth-Thermal via A Lightweight Cross Shallow and Deep Perception Network [16.925545576557514]
CSDNetはコヒーレンスを少なくして2つのモダリティを統合するように設計されている。
CSDNet for Salient Object Detection (SOD) タスクをロボット認識に適用する。
我々のアプローチはVDT-2048データセットで検証される。
論文 参考訳(メタデータ) (2024-03-15T08:49:33Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。