論文の概要: Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild
- arxiv url: http://arxiv.org/abs/2207.10660v2
- Date: Fri, 24 Mar 2023 00:42:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 18:40:58.394875
- Title: Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild
- Title(参考訳): omni3d:野生の3dオブジェクト検出のための大規模ベンチマークとモデル
- Authors: Garrick Brazil, Abhinav Kumar, Julian Straub, Nikhila Ravi, Justin
Johnson, Georgia Gkioxari
- Abstract要約: 大規模なデータセットとスケーラブルなソリューションは、2D認識において前例のない進歩をもたらした。
我々はOmni3Dと呼ばれる大規模なベンチマークを導入することで3Dオブジェクト検出の課題を再考する。
より大規模なOmni3Dおよび既存のベンチマークにおいて、Cube R-CNNが以前の作業より優れていることを示す。
- 参考スコア(独自算出の注目度): 32.05421669957098
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recognizing scenes and objects in 3D from a single image is a longstanding
goal of computer vision with applications in robotics and AR/VR. For 2D
recognition, large datasets and scalable solutions have led to unprecedented
advances. In 3D, existing benchmarks are small in size and approaches
specialize in few object categories and specific domains, e.g. urban driving
scenes. Motivated by the success of 2D recognition, we revisit the task of 3D
object detection by introducing a large benchmark, called Omni3D. Omni3D
re-purposes and combines existing datasets resulting in 234k images annotated
with more than 3 million instances and 98 categories. 3D detection at such
scale is challenging due to variations in camera intrinsics and the rich
diversity of scene and object types. We propose a model, called Cube R-CNN,
designed to generalize across camera and scene types with a unified approach.
We show that Cube R-CNN outperforms prior works on the larger Omni3D and
existing benchmarks. Finally, we prove that Omni3D is a powerful dataset for 3D
object recognition and show that it improves single-dataset performance and can
accelerate learning on new smaller datasets via pre-training.
- Abstract(参考訳): 単一の画像から3Dのシーンやオブジェクトを認識することは、ロボット工学やAR/VRにおけるコンピュータビジョンの長年の目標である。
2D認識では、大規模なデータセットとスケーラブルなソリューションが前例のない進歩をもたらした。
3Dでは、既存のベンチマークは小さく、オブジェクトのカテゴリや特定のドメイン(例えば都市運転シーン)に特化している。
2次元認識の成功に動機づけられて,omni3dと呼ばれる大規模ベンチマークを導入することで,3次元物体検出の課題を再検討した。
Omni3Dは既存のデータセットを再利用し、300万以上のインスタンスと98のカテゴリで注釈付けされた234Kイメージを生成する。
このようなスケールでの3D検出は、カメラの内在性の変化とシーンやオブジェクトの多様さにより困難である。
本稿では,カメラとシーンタイプを統一したアプローチで一般化するCube R-CNNというモデルを提案する。
cube r-cnnは、より大きなomni3dと既存のベンチマークで以前よりも優れています。
最後に、Omni3Dは3Dオブジェクト認識のための強力なデータセットであり、シングルデータセットのパフォーマンスを改善し、事前学習によって新しい小さなデータセットでの学習を加速できることを示す。
関連論文リスト
- DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。