論文の概要: 3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2410.01647v1
- Date: Wed, 2 Oct 2024 15:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:23:10.125562
- Title: 3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection
- Title(参考訳): 3DGS-DET:3次元物体検出のための境界誘導とボックス焦点サンプリングによる3次元ガウス散乱
- Authors: Yang Cao, Yuanliang Jv, Dan Xu,
- Abstract要約: 本稿では,3DGSを初めて3DODに導入し,主な課題を2つ挙げる。
2次元境界ガイダンスを組み込んだエレガントで効率的なソリューションを提案する。
また,3次元空間におけるオブジェクトの確率分布を生成するために2次元ボックスを用いたBox-Focused Smpling戦略を提案する。
- 参考スコア(独自算出の注目度): 12.14595005884025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Radiance Fields (NeRF) are widely used for novel-view synthesis and have been adapted for 3D Object Detection (3DOD), offering a promising approach to 3DOD through view-synthesis representation. However, NeRF faces inherent limitations: (i) limited representational capacity for 3DOD due to its implicit nature, and (ii) slow rendering speeds. Recently, 3D Gaussian Splatting (3DGS) has emerged as an explicit 3D representation that addresses these limitations. Inspired by these advantages, this paper introduces 3DGS into 3DOD for the first time, identifying two main challenges: (i) Ambiguous spatial distribution of Gaussian blobs: 3DGS primarily relies on 2D pixel-level supervision, resulting in unclear 3D spatial distribution of Gaussian blobs and poor differentiation between objects and background, which hinders 3DOD; (ii) Excessive background blobs: 2D images often include numerous background pixels, leading to densely reconstructed 3DGS with many noisy Gaussian blobs representing the background, negatively affecting detection. To tackle the challenge (i), we leverage the fact that 3DGS reconstruction is derived from 2D images, and propose an elegant and efficient solution by incorporating 2D Boundary Guidance to significantly enhance the spatial distribution of Gaussian blobs, resulting in clearer differentiation between objects and their background. To address the challenge (ii), we propose a Box-Focused Sampling strategy using 2D boxes to generate object probability distribution in 3D spaces, allowing effective probabilistic sampling in 3D to retain more object blobs and reduce noisy background blobs. Benefiting from our designs, our 3DGS-DET significantly outperforms the SOTA NeRF-based method, NeRF-Det, achieving improvements of +6.6 on mAP@0.25 and +8.1 on mAP@0.5 for the ScanNet dataset, and impressive +31.5 on mAP@0.25 for the ARKITScenes dataset.
- Abstract(参考訳): ニューラル・ラジアンス・フィールド(NeRF)は3次元オブジェクト検出(3DOD)に応用され、ビュー合成表現による3DODへの有望なアプローチを提供する。
しかし、NeRFは固有の制限に直面しています。
(i)その暗黙的な性質による3DODの表現能力の制限、及び
(ii)レンダリング速度が遅い。
近年,これらの制約に対処する明示的な3D表現として3Dガウススプラッティング(3DGS)が出現している。
これらの利点に触発され、本論文では初めて3DGSを3DODに導入し、主な課題を2つ挙げる。
(i)ガウスブロブの曖昧な空間分布:3DGSは主に2Dピクセルレベルの監視に依存し、その結果、ガウスブロブの不明瞭な3次元空間分布と3DODを妨げる物体と背景の識別不良が生じる。
(II)過度な背景像:2D画像には背景画素が多数含まれており,高密度に再構成された3DGSに背景を反映するノイズの多いガウス像が多数存在し,検出に悪影響を及ぼす。
挑戦に挑戦する
i) 3DGSの再構成は2次元画像から導かれるという事実を活用し, 2次元境界誘導を取り入れたエレガントで効率的な解法を提案し, ガウスブロブの空間分布を著しく向上させ, 対象物とその背景をより明瞭に区別する。
課題に対処するために
2Dボックスを用いたBox-Focused Smpling戦略を提案し、3D空間におけるオブジェクト確率分布を生成し、3Dにおける効果的な確率的サンプリングにより、より多くのオブジェクトブロブを保持でき、ノイズの多いバックグラウンドブロブを低減できる。
ScanNetデータセットでは、mAP@0.25で+6.6、mAP@0.5で+8.1、ARKITScenesデータセットでは+31.5である。
関連論文リスト
- Neural Signed Distance Function Inference through Splatting 3D Gaussians Pulled on Zero-Level Set [49.780302894956776]
多視点表面再構成における符号付き距離関数(SDF)の推測は不可欠である。
本稿では3DGSとニューラルSDFの学習をシームレスに融合する手法を提案する。
我々の数値的および視覚的比較は、広く使用されているベンチマークの最先端結果よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-10-18T05:48:06Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - 3D-HGS: 3D Half-Gaussian Splatting [5.766096863155448]
光リアルな3D再構成は、3Dコンピュータビジョンの基本的な問題である。
本稿では,プラグアンドプレイカーネルとして使用できる3Dハーフガウス(3D-HGS)カーネルを提案する。
論文 参考訳(メタデータ) (2024-06-04T19:04:29Z) - DPA-Net: Structured 3D Abstraction from Sparse Views via Differentiable Primitive Assembly [18.655229356566785]
スパースRGB画像から構造化された3D抽象化を学習するための、微分可能なレンダリングフレームワークを提案する。
異なるボリュームレンダリングを活用することで,本手法は3次元監視を必要としない。
本手法は,スパースビューからの3次元プリミティブ抽象に対する最先端の代替手段よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-01T03:10:36Z) - Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。
我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文 参考訳(メタデータ) (2023-12-07T10:00:04Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。