論文の概要: DiffRef3D: A Diffusion-based Proposal Refinement Framework for 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2310.16349v1
- Date: Wed, 25 Oct 2023 04:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 16:45:48.057643
- Title: DiffRef3D: A Diffusion-based Proposal Refinement Framework for 3D Object
Detection
- Title(参考訳): DiffRef3D:3次元物体検出のための拡散型提案記述フレームワーク
- Authors: Se-Ho Kim, Inyong Koo, Inyoung Lee, Byeongjun Park, Changick Kim
- Abstract要約: DiffRef3Dという新しいフレームワークを導入し,点雲による3次元物体検出における拡散過程を初めて適用した。
トレーニング中、DiffRef3Dはプロポーザルとターゲットオブジェクトの間の残余に徐々にノイズを加え、その後、仮説を生成するためにプロポーザルにノイズの残余を適用する。
精製モジュールはこれらの仮説を利用してノイズ残基をノイズ化し、正確なボックス予測を生成する。
- 参考スコア(独自算出の注目度): 15.149782382638485
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Denoising diffusion models show remarkable performances in generative tasks,
and their potential applications in perception tasks are gaining interest. In
this paper, we introduce a novel framework named DiffRef3D which adopts the
diffusion process on 3D object detection with point clouds for the first time.
Specifically, we formulate the proposal refinement stage of two-stage 3D object
detectors as a conditional diffusion process. During training, DiffRef3D
gradually adds noise to the residuals between proposals and target objects,
then applies the noisy residuals to proposals to generate hypotheses. The
refinement module utilizes these hypotheses to denoise the noisy residuals and
generate accurate box predictions. In the inference phase, DiffRef3D generates
initial hypotheses by sampling noise from a Gaussian distribution as residuals
and refines the hypotheses through iterative steps. DiffRef3D is a versatile
proposal refinement framework that consistently improves the performance of
existing 3D object detection models. We demonstrate the significance of
DiffRef3D through extensive experiments on the KITTI benchmark. Code will be
available.
- Abstract(参考訳): 消音拡散モデルは生成的タスクにおいて顕著な性能を示しており、その知覚的タスクにおける潜在的な応用が注目されている。
本稿では,点雲を用いた3次元物体検出における拡散過程を初めて採用したdiffref3dという新しいフレームワークを提案する。
具体的には,条件拡散過程として2段階3次元物体検出器の提案改良段階を定式化する。
トレーニング中、diffref3dはプロポーザルとターゲットオブジェクトの間の残差に徐々にノイズを加え、その後、ノイズの残差をプロポーザルに適用して仮説を生成する。
リファインメントモジュールは、これらの仮説を利用してノイズ残差を解消し、正確なボックス予測を生成する。
推論フェーズでは、DiffRef3Dはガウス分布からノイズをサンプリングして初期仮説を生成し、反復的なステップを通じて仮説を洗練する。
DiffRef3Dは、既存の3Dオブジェクト検出モデルの性能を一貫して改善する汎用的な提案改善フレームワークである。
我々は,KITTIベンチマークの広範な実験を通じて,DiffRef3Dの重要性を示す。
コードは利用可能だ。
関連論文リスト
- Diff3DETR:Agent-based Diffusion Model for Semi-supervised 3D Object Detection [33.58208166717537]
3次元物体検出は3次元シーンの理解に不可欠である。
半教師付き手法の最近の発展は、教師による学習フレームワークを用いて、未ラベルの点群に対する擬似ラベルを生成することにより、この問題を緩和しようとしている。
半教師付き3次元物体検出のためのエージェントベース拡散モデル(Diff3DETR)を提案する。
論文 参考訳(メタデータ) (2024-08-01T05:04:22Z) - 3D Object Detection from Point Cloud via Voting Step Diffusion [52.9966883689137]
既存の投票ベースのメソッドは、個々のオブジェクトの部分的な面から厳しいノイズとともに投票を受け取り、亜最適検出性能をもたらす。
雑音条件付きスコアネットワークを用いて分布のスコア関数を推定することにより、ランダムな3Dポイントを分布の高密度領域へ移動させる新しい手法を提案する。
大規模屋内3DシーンデータセットSUN RGB-DとScanNet V2の実験により,提案手法の優位性を実証した。
論文 参考訳(メタデータ) (2024-03-21T05:04:52Z) - D3PRefiner: A Diffusion-based Denoise Method for 3D Human Pose
Refinement [3.514184876338779]
拡散型3次元ポース・リファイナは既存の3次元ポーズ推定器の出力を改良するために提案される。
現在の拡散モデルのアーキテクチャを利用して、ノイズの多い3Dポーズの分布を3Dポーズに変換する。
実験により,提案アーキテクチャは,現在の3次元ポーズ推定器の性能を大幅に向上させることができることを示した。
論文 参考訳(メタデータ) (2024-01-08T14:21:02Z) - 6D-Diff: A Keypoint Diffusion Framework for 6D Object Pose Estimation [16.242361975225066]
単一のRGB画像から6Dオブジェクトのポーズを推定することは、しばしばノイズと不確定性を伴う。
本稿では,オブジェクトのポーズ推定におけるノイズと不確定性を扱うための拡散に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-29T05:28:35Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - 3DifFusionDet: Diffusion Model for 3D Object Detection with Robust
LiDAR-Camera Fusion [6.914463996768285]
3DifFusionDetはノイズの多い3Dボックスからターゲットボックスへのノイズ拡散プロセスとして3Dオブジェクトを検出する。
特徴整合戦略の下では、プログレッシブ改良法はロバストLiDAR-Camera融合に重要な貢献をする可能性がある。
実世界の交通物体識別のベンチマークであるKITTIの実験では、3DifFusionDetが以前のよく検討された検出器と比較して好適に動作できることが判明した。
論文 参考訳(メタデータ) (2023-11-07T05:53:09Z) - SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D
Object Pose Estimation [66.16525145765604]
実世界のシナリオにおける6次元オブジェクトポーズ推定のためのSE(3)拡散モデルに基づく点クラウド登録フレームワークを提案する。
提案手法は,3次元登録タスクをデノナイズ拡散過程として定式化し,音源雲の姿勢を段階的に洗練する。
実世界のTUD-L, LINEMOD, およびOccluded-LINEMODデータセットにおいて, 拡散登録フレームワークが顕著なポーズ推定性能を示すことを示す。
論文 参考訳(メタデータ) (2023-10-26T12:47:26Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。