論文の概要: MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection
- arxiv url: http://arxiv.org/abs/2504.06801v1
- Date: Wed, 09 Apr 2025 11:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:15.237487
- Title: MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection
- Title(参考訳): MonoPlace3D:3Dモノクロ検出のための3D認識オブジェクト配置学習
- Authors: Rishubh Parihar, Srinjay Sarkar, Sarthak Vora, Jogendra Kundu, R. Venkatesh Babu,
- Abstract要約: 現在のモノクラー3D検出器は、現実世界のデータセットの多様性とスケールに制限されている。
物体の位置や位置は、有効な3次元単分子検出器の訓練に必要不可欠であることを示す。
現実的な拡張を実現するために,3Dシーンコンテンツを考慮した新しいシステムであるMonoPlace3Dを紹介する。
- 参考スコア(独自算出の注目度): 24.611196145977022
- License:
- Abstract: Current monocular 3D detectors are held back by the limited diversity and scale of real-world datasets. While data augmentation certainly helps, it's particularly difficult to generate realistic scene-aware augmented data for outdoor settings. Most current approaches to synthetic data generation focus on realistic object appearance through improved rendering techniques. However, we show that where and how objects are positioned is just as crucial for training effective 3D monocular detectors. The key obstacle lies in automatically determining realistic object placement parameters - including position, dimensions, and directional alignment when introducing synthetic objects into actual scenes. To address this, we introduce MonoPlace3D, a novel system that considers the 3D scene content to create realistic augmentations. Specifically, given a background scene, MonoPlace3D learns a distribution over plausible 3D bounding boxes. Subsequently, we render realistic objects and place them according to the locations sampled from the learned distribution. Our comprehensive evaluation on two standard datasets KITTI and NuScenes, demonstrates that MonoPlace3D significantly improves the accuracy of multiple existing monocular 3D detectors while being highly data efficient.
- Abstract(参考訳): 現在のモノクラー3D検出器は、現実世界のデータセットの多様性とスケールに制限されている。
データ拡張は確かに役に立ちますが、屋外設定のために現実的なシーン対応の拡張現実データを生成することは特に困難です。
合成データ生成への現在のアプローチは、レンダリング技術の改善を通じて、現実的なオブジェクトの外観に焦点を当てている。
しかし, 物体の位置や位置は, 有効な3次元単分子検出器の訓練に必要不可欠であることを示す。
重要な障害は、実際のシーンに合成オブジェクトを導入する際に、位置、寸法、方向のアライメントを含む、現実的なオブジェクト配置パラメータを自動的に決定することにある。
そこで本研究では,現実的な拡張を実現するために,3次元シーンコンテンツを考慮した新しいシステムMonoPlace3Dを紹介する。
具体的には、背景シーンを考慮すれば、MonoPlace3Dは、もっともらしい3Dバウンディングボックス上の分布を学習する。
その後、現実的なオブジェクトをレンダリングし、学習された分布からサンプリングされた位置に応じて配置する。
KITTIとNuScenesの2つの標準データセットに対する総合的な評価は、MonoPlace3Dが複数の既存の単分子3D検出器の精度を大幅に向上し、高いデータ効率を実現していることを示している。
関連論文リスト
- V-MIND: Building Versatile Monocular Indoor 3D Detector with Diverse 2D Annotations [17.49394091283978]
V-MIND(Versatile Monocular Indoor Detector)は,室内3D検出器の性能を向上させる。
大規模2次元画像を3次元点雲に変換し,その後に擬似3次元境界ボックスを導出することにより,3次元学習データを生成する。
V-MINDはOmni3D屋内データセット上の幅広いクラスにわたる最先端のオブジェクト検出性能を実現する。
論文 参考訳(メタデータ) (2024-12-16T03:28:00Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - 3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D
Detection [35.61749990140511]
モノクロ3Dオブジェクト検出における大きな課題は、実際のデータセットにおけるオブジェクトの多様性と量を制限することである。
そこで本研究では,仮想オブジェクトを自動的にコピーし,実際のシーンに貼り付ける,物理的に可塑性な屋内3Dオブジェクト挿入手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T08:44:54Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。