論文の概要: OmniNOCS: A unified NOCS dataset and model for 3D lifting of 2D objects
- arxiv url: http://arxiv.org/abs/2407.08711v1
- Date: Thu, 11 Jul 2024 17:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:21:02.581749
- Title: OmniNOCS: A unified NOCS dataset and model for 3D lifting of 2D objects
- Title(参考訳): OmniNOCS:2次元物体の3次元浮揚のための統一型NOCSデータセットとモデル
- Authors: Akshay Krishnan, Abhijit Kundu, Kevis-Kokitsi Maninis, James Hays, Matthew Brown,
- Abstract要約: OmniNOCSは3次元正規化オブジェクト座標空間(NOCS)マップ,オブジェクトマスク,および3次元バウンディングボックスアノテーションを備えた大規模モノクラーデータセットである。
我々はOmniNOCSを用いて、新しい変圧器ベースの単分子NOCS予測モデル(NOCSformer)を訓練する。
これは、2Dボックスで誘導される場合に幅広いクラスに一般化できる最初のNOCSモデルである。
- 参考スコア(独自算出の注目度): 18.14885143091284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose OmniNOCS, a large-scale monocular dataset with 3D Normalized Object Coordinate Space (NOCS) maps, object masks, and 3D bounding box annotations for indoor and outdoor scenes. OmniNOCS has 20 times more object classes and 200 times more instances than existing NOCS datasets (NOCS-Real275, Wild6D). We use OmniNOCS to train a novel, transformer-based monocular NOCS prediction model (NOCSformer) that can predict accurate NOCS, instance masks and poses from 2D object detections across diverse classes. It is the first NOCS model that can generalize to a broad range of classes when prompted with 2D boxes. We evaluate our model on the task of 3D oriented bounding box prediction, where it achieves comparable results to state-of-the-art 3D detection methods such as Cube R-CNN. Unlike other 3D detection methods, our model also provides detailed and accurate 3D object shape and segmentation. We propose a novel benchmark for the task of NOCS prediction based on OmniNOCS, which we hope will serve as a useful baseline for future work in this area. Our dataset and code will be at the project website: https://omninocs.github.io.
- Abstract(参考訳): OmniNOCSは3次元正規化オブジェクトコーディネート空間(NOCS)マップとオブジェクトマスクと3次元バウンディングボックスアノテーションを備えた大規模モノクラーデータセットである。
OmniNOCSは既存のNOCSデータセット(NOCS-Real275、Wild6D)の20倍のオブジェクトクラスと200倍のインスタンスを持っている。
我々はOmniNOCSを用いて,NOCS予測モデル(NOCSformer)をトレーニングし,NOCS,インスタンスマスク,および多種多様なクラスにわたる2次元物体検出からのポーズを予測する。
これは、2Dボックスで誘導される場合に幅広いクラスに一般化できる最初のNOCSモデルである。
そこで我々は,立方体R-CNNのような最先端の3D検出手法に匹敵する結果が得られる3D指向境界ボックス予測の課題について,本モデルの評価を行った。
他の3D検出方法とは異なり、我々のモデルは詳細な3Dオブジェクトの形状とセグメンテーションも提供する。
我々は,OmniNOCSに基づくNOCS予測タスクのための新しいベンチマークを提案する。
私たちのデータセットとコードはプロジェクトのWebサイト(https://omninocs.github.io)に掲載されます。
関連論文リスト
- ODIN: A Single Model for 2D and 3D Segmentation [34.612953668151036]
ODINは、2D RGBイメージと3Dポイントクラウドのセグメンテーションとラベル付けを行うモデルである。
ScanNet200、Matterport3D、AI2THOR 3Dセグメンテーションベンチマーク上での最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-04T18:59:25Z) - LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes [52.31402192831474]
しかし、既存の3Dシーン生成モデルは、ターゲットシーンを特定のドメインに制限する。
ドメインフリーシーン生成パイプラインであるLucidDreamerを提案する。
LucidDreamerは、ターゲットシーンのドメインに制約がなく、高詳細なガウススプラットを生成する。
論文 参考訳(メタデータ) (2023-11-22T13:27:34Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking [78.25819070166351]
完全スパース3次元物体検出のためのVoxelNextを提案する。
私たちの中核となる洞察は、手作りのプロキシに頼ることなく、スパースボクセル機能に基づいてオブジェクトを直接予測することです。
私たちの強力なスパース畳み込みネットワークVoxelNeXtは、voxelの機能を通して3Dオブジェクトを検出し、追跡します。
論文 参考訳(メタデータ) (2023-03-20T17:40:44Z) - Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild [32.05421669957098]
大規模なデータセットとスケーラブルなソリューションは、2D認識において前例のない進歩をもたらした。
我々はOmni3Dと呼ばれる大規模なベンチマークを導入することで3Dオブジェクト検出の課題を再考する。
より大規模なOmni3Dおよび既存のベンチマークにおいて、Cube R-CNNが以前の作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-21T17:56:22Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision [26.885846254261626]
連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。
CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
論文 参考訳(メタデータ) (2020-07-30T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。