論文の概要: 3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D
Detection
- arxiv url: http://arxiv.org/abs/2312.05277v1
- Date: Fri, 8 Dec 2023 08:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:59:22.112728
- Title: 3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D
Detection
- Title(参考訳): 3Dコピーペースト:モノクロ3D検出のための物理的に可塑性物体挿入
- Authors: Yunhao Ge, Hong-Xing Yu, Cheng Zhao, Yuliang Guo, Xinyu Huang, Liu
Ren, Laurent Itti, Jiajun Wu
- Abstract要約: モノクロ3Dオブジェクト検出における大きな課題は、実際のデータセットにおけるオブジェクトの多様性と量を制限することである。
そこで本研究では,仮想オブジェクトを自動的にコピーし,実際のシーンに貼り付ける,物理的に可塑性な屋内3Dオブジェクト挿入手法を提案する。
- 参考スコア(独自算出の注目度): 35.61749990140511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in monocular 3D object detection is the limited diversity
and quantity of objects in real datasets. While augmenting real scenes with
virtual objects holds promise to improve both the diversity and quantity of the
objects, it remains elusive due to the lack of an effective 3D object insertion
method in complex real captured scenes. In this work, we study augmenting
complex real indoor scenes with virtual objects for monocular 3D object
detection. The main challenge is to automatically identify plausible physical
properties for virtual assets (e.g., locations, appearances, sizes, etc.) in
cluttered real scenes. To address this challenge, we propose a physically
plausible indoor 3D object insertion approach to automatically copy virtual
objects and paste them into real scenes. The resulting objects in scenes have
3D bounding boxes with plausible physical locations and appearances. In
particular, our method first identifies physically feasible locations and poses
for the inserted objects to prevent collisions with the existing room layout.
Subsequently, it estimates spatially-varying illumination for the insertion
location, enabling the immersive blending of the virtual objects into the
original scene with plausible appearances and cast shadows. We show that our
augmentation method significantly improves existing monocular 3D object models
and achieves state-of-the-art performance. For the first time, we demonstrate
that a physically plausible 3D object insertion, serving as a generative data
augmentation technique, can lead to significant improvements for discriminative
downstream tasks such as monocular 3D object detection. Project website:
https://gyhandy.github.io/3D-Copy-Paste/
- Abstract(参考訳): モノクロ3dオブジェクト検出における大きな課題は、実データセット内のオブジェクトの多様性と量に制限があることだ。
実際のシーンを仮想オブジェクトで拡張することは、オブジェクトの多様性と量の両方を改善すると約束されているが、複雑な実写シーンで有効な3dオブジェクト挿入方法が欠如しているため、いまだに理解できない。
本研究では,モノクロ3次元物体検出のための仮想物体を用いた複雑な屋内シーンの強化について検討する。
主な課題は、散らかった現実のシーンにおいて、仮想資産(場所、外観、サイズなど)のもっともらしい物理的特性を自動的に識別することである。
そこで本研究では,仮想物体を自動的にコピーして実際のシーンに貼り付ける,物理的に妥当な3dオブジェクト挿入手法を提案する。
シーン内のオブジェクトは、3Dバウンディングボックスを持ち、物理的な位置と外観がもっとも高い。
特に,本手法は,まず物理的に実現可能な位置を識別し,既存の部屋配置との衝突を防止するために挿入対象のポーズをとる。
その後、挿入位置の空間変動照明を推定し、仮想物体を元のシーンに没入的にブレンドし、見栄えやキャストシャドウを再現する。
本手法は既存のモノクロ3Dオブジェクトモデルを大幅に改善し,最先端の性能を実現する。
生成データ拡張技術として機能する物理的に可塑性な3Dオブジェクト挿入は,モノクロ3Dオブジェクト検出などの識別下流タスクにおいて,大きな改善をもたらすことが初めて実証された。
プロジェクトウェブサイト:https://gyhandy.github.io/3D-Copy-Paste/
関連論文リスト
- Lay-A-Scene: Personalized 3D Object Arrangement Using Text-to-Image Priors [43.19801974707858]
現在の3D生成技術は、複数の高解像度オブジェクトでシーンを生成するのに苦労している。
ここでは,オープンセット3Dオブジェクトアレンジメントの課題を解決するLay-A-Sceneを紹介する。
本研究では,2次元シーン上にオブジェクトの一貫した投影を見出すことにより,オブジェクトの3次元ポーズや配置を2次元画像から推測する方法を示す。
論文 参考訳(メタデータ) (2024-06-02T09:48:19Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Monocular 3D Object Detection using Multi-Stage Approaches with
Attention and Slicing aided hyper inference [0.0]
3Dオブジェクト検出は、世界のオブジェクトのサイズ、向き、位置をキャプチャできるため、不可欠です。
拡張現実(Augmented Reality, AR)や自動運転車、ロボットなど、現実世界のアプリケーションでは、この3D検出が利用できるようになるでしょう。
論文 参考訳(メタデータ) (2022-12-22T15:36:07Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Object Wake-up: 3-D Object Reconstruction, Animation, and in-situ
Rendering from a Single Image [58.69732754597448]
椅子の写真があれば、椅子の3次元形状を抽出し、その可愛らしい調音や動きをアニメーション化し、元の画像空間でその場でレンダリングできるだろうか?
単一画像中の調音対象を抽出・操作するための自動アプローチを考案する。
論文 参考訳(メタデータ) (2021-08-05T16:20:12Z) - 3D Object Recognition By Corresponding and Quantizing Neural 3D Scene
Representations [29.61554189447989]
本稿では,RGB-D画像からオブジェクトを検出し,その3Dポーズを推測するシステムを提案する。
多くの既存のシステムはオブジェクトを識別し、3Dのポーズを推測できるが、それらは人間のラベルや3Dアノテーションに大きく依存している。
論文 参考訳(メタデータ) (2020-10-30T13:56:09Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。