論文の概要: Gaussian Splatting is an Effective Data Generator for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2504.16740v1
- Date: Wed, 23 Apr 2025 14:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 16:00:46.465339
- Title: Gaussian Splatting is an Effective Data Generator for 3D Object Detection
- Title(参考訳): Gaussian Splattingは3Dオブジェクト検出に有効なデータジェネレータである
- Authors: Farhad G. Zanjani, Davide Abati, Auke Wiggers, Dimitris Kalatzis, Jens Petersen, Hong Cai, Amirhossein Habibian,
- Abstract要約: ドライビングシーンにおける3次元物体配置のためのガウススプラッティングに基づく3次元再構成の最近の進歩を利用する。
提案手法では, 3次元オブジェクトを直接再構成した空間に配置し, 幾何変換を明示的に課す。
これにより、オブジェクト配置の物理的妥当性と高精度な3Dポーズと位置アノテーションの両方が保証される。
- 参考スコア(独自算出の注目度): 12.882763124978535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate data augmentation for 3D object detection in autonomous driving. We utilize recent advancements in 3D reconstruction based on Gaussian Splatting for 3D object placement in driving scenes. Unlike existing diffusion-based methods that synthesize images conditioned on BEV layouts, our approach places 3D objects directly in the reconstructed 3D space with explicitly imposed geometric transformations. This ensures both the physical plausibility of object placement and highly accurate 3D pose and position annotations. Our experiments demonstrate that even by integrating a limited number of external 3D objects into real scenes, the augmented data significantly enhances 3D object detection performance and outperforms existing diffusion-based 3D augmentation for object detection. Extensive testing on the nuScenes dataset reveals that imposing high geometric diversity in object placement has a greater impact compared to the appearance diversity of objects. Additionally, we show that generating hard examples, either by maximizing detection loss or imposing high visual occlusion in camera images, does not lead to more efficient 3D data augmentation for camera-based 3D object detection in autonomous driving.
- Abstract(参考訳): 自律運転における3次元物体検出のためのデータ拡張について検討する。
ドライビングシーンにおける3次元物体配置のためのガウススプラッティングに基づく3次元再構成の最近の進歩を利用する。
BEVレイアウトで条件付き画像を合成する既存の拡散法とは異なり、我々のアプローチは3Dオブジェクトを直接再構成した空間に配置し、幾何変換を明示的に課す。
これにより、オブジェクト配置の物理的妥当性と高精度な3Dポーズと位置アノテーションの両方が保証される。
実験により,外部3Dオブジェクトを現実のシーンに組み込むことで,3Dオブジェクト検出性能を大幅に向上し,既存の拡散型3Dオブジェクト検出よりも優れることが示された。
nuScenesデータセットの大規模なテストでは、オブジェクトの配置に高い幾何学的多様性を課すことは、オブジェクトの外観的多様性よりも大きな影響を与えることが明らかになった。
さらに、検出損失の最大化やカメラ画像の高視認性化によるハードサンプルの生成は、自律運転におけるカメラベースの3Dオブジェクト検出において、より効率的な3Dデータ拡張に繋がらないことを示す。
関連論文リスト
- PointAD: Comprehending 3D Anomalies from Points and Pixels for Zero-shot 3D Anomaly Detection [13.60524473223155]
本稿では,未知の物体上の3次元異常を認識するために,CLIPの強力な一般化能力を伝達する新しい手法であるPointADを紹介する。
PointADは、複数の2Dレンダリングに3D異常をレンダリングし、それらを3D空間に投影する。
我々のモデルはRGB情報を直接統合することができ、プラグアンドプレイ方式で3D異常の理解をさらに強化することができる。
論文 参考訳(メタデータ) (2024-10-01T01:40:22Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - Aerial Monocular 3D Object Detection [67.20369963664314]
DVDETは2次元画像空間と3次元物理空間の両方で空中単分子3次元物体検出を実現するために提案される。
高度視差変形問題に対処するため,新しい測地変形変換モジュールを提案する。
より多くの研究者がこの領域を調査するよう促すため、データセットと関連するコードをリリースします。
論文 参考訳(メタデータ) (2022-08-08T08:32:56Z) - Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object
Detection [17.526914782562528]
グラフ構造学習(GSL)による多視点画像情報を自動的に集約するグラフDETR3Dを提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で49.5 NDSを達成し、様々な画像ビュー3Dオブジェクト検出器と比較して新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2022-04-25T12:10:34Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。