論文の概要: 3DCoMPaT$^{++}$: An improved Large-scale 3D Vision Dataset for
Compositional Recognition
- arxiv url: http://arxiv.org/abs/2310.18511v2
- Date: Tue, 12 Mar 2024 11:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 01:37:13.071533
- Title: 3DCoMPaT$^{++}$: An improved Large-scale 3D Vision Dataset for
Compositional Recognition
- Title(参考訳): 3DCoMPaT$^{++}$: 合成認識のための大規模3次元視覚データセットの改良
- Authors: Habib Slim, Xiang Li, Yuchen Li, Mahmoud Ahmed, Mohamed Ayman, Ujjwal
Upadhyay, Ahmed Abdelreheem, Arpit Prajapati, Suhail Pothigara, Peter Wonka,
Mohamed Elhoseiny
- Abstract要約: 3DCoMPaT$++$は、1000万以上のスタイリングされた3D形状の1億6000万レンダリングビューを備えたマルチモーダル2D/3Dデータセットである。
我々は,3Dオブジェクトの部品の合成を総合的に認識し,グラウンドドコMPaT認識(GCR)と呼ばれる新しいタスクを導入する。
- 参考スコア(独自算出の注目度): 53.97029821609132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present 3DCoMPaT$^{++}$, a multimodal 2D/3D dataset with 160
million rendered views of more than 10 million stylized 3D shapes carefully
annotated at the part-instance level, alongside matching RGB point clouds, 3D
textured meshes, depth maps, and segmentation masks. 3DCoMPaT$^{++}$ covers 41
shape categories, 275 fine-grained part categories, and 293 fine-grained
material classes that can be compositionally applied to parts of 3D objects. We
render a subset of one million stylized shapes from four equally spaced views
as well as four randomized views, leading to a total of 160 million renderings.
Parts are segmented at the instance level, with coarse-grained and fine-grained
semantic levels. We introduce a new task, called Grounded CoMPaT Recognition
(GCR), to collectively recognize and ground compositions of materials on parts
of 3D objects. Additionally, we report the outcomes of a data challenge
organized at CVPR2023, showcasing the winning method's utilization of a
modified PointNet$^{++}$ model trained on 6D inputs, and exploring alternative
techniques for GCR enhancement. We hope our work will help ease future research
on compositional 3D Vision.
- Abstract(参考訳): 本研究では,RGB点雲,3Dテクスチャメッシュ,深度マップ,セグメンテーションマスクと合わせて,1000万以上のスタイリングされた3D形状を慎重に注釈付けしたマルチモーダル2D/3Dデータセットである3DCoMPaT$^{++}を提示する。
3DCoMPaT$^{++}$は、41の形状カテゴリ、275のきめ細かい部分カテゴリ、293のきめ細かい材料クラスをカバーし、3Dオブジェクトの一部に合成することができる。
4つの等間隔ビューと4つのランダムビューから100万のスタイリングされた形状のサブセットを描画し、合計1億6000万のレンダリングを実現しました。
パーツはインスタンスレベルでセグメンテーションされ、粗い粒度ときめ細かいセマンティックレベルを持つ。
我々は,3Dオブジェクトの部品の合成を総合的に認識し,グラウンドドコMPaT認識(GCR)と呼ばれる新しいタスクを導入する。
さらに,cvpr2023で組織されたデータチャレンジの結果を報告するとともに,6次元入力で学習した修正されたpointnet$^{++}$モデルの利用例を示し,gcr強化のための代替手法を検討する。
われわれの研究が、作曲3Dビジョンの今後の研究を容易にすることを願っている。
関連論文リスト
- PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文 参考訳(メタデータ) (2022-04-15T17:10:48Z) - Fine-Grained 3D Shape Classification with Hierarchical Part-View
Attentions [70.0171362989609]
本稿では,FG3D-Netと呼ばれる新しい3次元形状分類手法を提案する。
詳細な3次元形状データセットに基づく結果から,本手法が他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-26T06:53:19Z) - Local Implicit Grid Representations for 3D Scenes [24.331110387905962]
本稿では,拡張性と汎用性のために設計された新しい3次元形状表現であるLocal Implicit Grid Representationsを紹介する。
我々はオートエンコーダを訓練し、その大きさで3次元形状の局所的な作物の埋め込みを学習する。
次に,デコーダを形状最適化のコンポーネントとして使用し,重なり合う作物の正規格子上の潜伏符号の集合を解く。
論文 参考訳(メタデータ) (2020-03-19T18:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。