論文の概要: 3DCoMPaT200: Language-Grounded Compositional Understanding of Parts and Materials of 3D Shapes
- arxiv url: http://arxiv.org/abs/2501.06785v1
- Date: Sun, 12 Jan 2025 11:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:50.148520
- Title: 3DCoMPaT200: Language-Grounded Compositional Understanding of Parts and Materials of 3D Shapes
- Title(参考訳): 3DCoMPaT200:3次元形状の部品と材料の構成的理解
- Authors: Mahmoud Ahmed, Xiang Li, Arpit Prajapati, Mohamed Elhoseiny,
- Abstract要約: 3DCoMPaT200は、対象部品や材料の構成的理解に適した大規模なデータセットである。
これは、$approx$5のオブジェクト語彙を持つ200のオブジェクトカテゴリを、3DCoMPaTや$approx$4の大きい部分カテゴリと比較する。
合成3次元モデリングの複雑さに対処するために,合成部品形状検索の新しい課題を提案する。
- 参考スコア(独自算出の注目度): 29.8054021078428
- License:
- Abstract: Understanding objects in 3D at the part level is essential for humans and robots to navigate and interact with the environment. Current datasets for part-level 3D object understanding encompass a limited range of categories. For instance, the ShapeNet-Part and PartNet datasets only include 16, and 24 object categories respectively. The 3DCoMPaT dataset, specifically designed for compositional understanding of parts and materials, contains only 42 object categories. To foster richer and fine-grained part-level 3D understanding, we introduce 3DCoMPaT200, a large-scale dataset tailored for compositional understanding of object parts and materials, with 200 object categories with $\approx$5 times larger object vocabulary compared to 3DCoMPaT and $\approx$ 4 times larger part categories. Concretely, 3DCoMPaT200 significantly expands upon 3DCoMPaT, featuring 1,031 fine-grained part categories and 293 distinct material classes for compositional application to 3D object parts. Additionally, to address the complexities of compositional 3D modeling, we propose a novel task of Compositional Part Shape Retrieval using ULIP to provide a strong 3D foundational model for 3D Compositional Understanding. This method evaluates the model shape retrieval performance given one, three, or six parts described in text format. These results show that the model's performance improves with an increasing number of style compositions, highlighting the critical role of the compositional dataset. Such results underscore the dataset's effectiveness in enhancing models' capability to understand complex 3D shapes from a compositional perspective. Code and Data can be found at http://github.com/3DCoMPaT200/3DCoMPaT200
- Abstract(参考訳): 人間やロボットが環境をナビゲートし、操作するためには、部分レベルで3Dで物体を理解することが不可欠である。
パートレベルの3Dオブジェクト理解のための現在のデータセットは、限られた範囲のカテゴリを含んでいる。
例えば、ShapeNet-PartとPartNetのデータセットはそれぞれ16と24のオブジェクトカテゴリのみである。
3DCoMPaTデータセットは、部品や材料の構成的理解のために特別に設計されたもので、42のオブジェクトカテゴリしか含まない。
3DCoMPaT200は,3DCoMPaTと4倍の大きさの3DCoMPaTと5倍の大きさのオブジェクト語彙を持つ200のオブジェクトカテゴリを持つ。
具体的には、3DCoMPaT200は3DCoMPaTに対して著しく拡大し、1,031のきめ細かい部分カテゴリと293の異なる材料クラスが3Dオブジェクトに適用される。
さらに, 合成3次元モデリングの複雑さに対処するため, ULIPを用いた合成部分形状検索の新しいタスクを提案し, 3次元合成理解のための強力な3次元基礎モデルを提供する。
本手法は,テキスト形式で記述された1,3,6部分のモデル形状検索性能を評価する。
これらの結果から,モデルの性能はスタイル構成の増加とともに向上し,構成データセットの重要な役割を浮き彫りにした。
このような結果は、合成の観点から複雑な3次元形状を理解するためのモデルの能力を高めるデータセットの有効性を裏付けるものである。
コードとデータはhttp://github.com/3DCoMPaT200/3DCoMPaT200で見ることができる。
関連論文リスト
- CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians [97.15119679296954]
CompGS は 3D Gaussian Splatting (GS) を用いた,効率的なテキストから3Dコンテンツ生成のための新しい生成フレームワークである。
CompGSは簡単に3D編集に拡張でき、シーン生成を容易にする。
論文 参考訳(メタデータ) (2024-10-28T04:35:14Z) - PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model [19.333506797686695]
本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。
我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。
本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
論文 参考訳(メタデータ) (2024-04-04T23:38:45Z) - 3DCoMPaT$^{++}$: An improved Large-scale 3D Vision Dataset for
Compositional Recognition [53.97029821609132]
3DCoMPaT$++$は、1000万以上のスタイリングされた3D形状の1億6000万レンダリングビューを備えたマルチモーダル2D/3Dデータセットである。
我々は,3Dオブジェクトの部品の合成を総合的に認識し,グラウンドドコMPaT認識(GCR)と呼ばれる新しいタスクを導入する。
論文 参考訳(メタデータ) (2023-10-27T22:01:43Z) - Structure from Action: Learning Interactions for Articulated Object 3D
Structure Discovery [18.96346371296251]
SfA(Structure from Action)は,目に見えない物体の3次元部分形状と関節パラメータを発見するためのフレームワークである。
情報的相互作用を選択することで、SfAは部品を発見し、閉じた引き出しの内側のような閉塞面を明らかにする。
経験的に、SfAは最先端のコンポーネントのパイプラインを25.4の3D IoUパーセンテージで上回っている。
論文 参考訳(メタデータ) (2022-07-19T00:27:36Z) - Scan2Part: Fine-grained and Hierarchical Part-level Understanding of
Real-World 3D Scans [68.98085986594411]
本研究では,実世界の雑音の多い屋内RGB-Dスキャンにおいて,オブジェクトの個々の部分を分割するScan2Partを提案する。
基礎となる3Dスキャン幾何の微細な詳細をキャプチャする、スパースなU-Netベースのアーキテクチャを用いています。
出力として、幾何が粗い、あるいは部分的に欠落している場合でも、オブジェクトごとの細かいラベルを予測できる。
論文 参考訳(メタデータ) (2022-06-06T05:43:10Z) - Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life
3D Category Reconstruction [7.013794773659423]
3Dの共通オブジェクト(Common Objects in 3D)は、カメラのポーズと地上の真実の3Dポイントクラウドで注釈付けされたオブジェクトカテゴリの実際のマルチビューイメージを備えた大規模なデータセットである。
データセットには、50のMS-COCOカテゴリからオブジェクトをキャプチャする19,000近いビデオから、合計150万フレームが含まれている。
我々は、この新たなデータセットを利用して、いくつかの新しいビュー合成法とカテゴリ中心の3D再構成法に関する、最初の大規模"in-the-wild"評価を行う。
論文 参考訳(メタデータ) (2021-09-01T17:59:05Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - Learning Feature Aggregation for Deep 3D Morphable Models [57.1266963015401]
階層レベルで機能集約を向上するためのマッピング行列を学習するための注意に基づくモジュールを提案する。
実験の結果,マッピング行列のエンドツーエンドトレーニングにより,様々な3次元形状データセットの最先端結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-05-05T16:41:00Z) - Fine-Grained 3D Shape Classification with Hierarchical Part-View
Attentions [70.0171362989609]
本稿では,FG3D-Netと呼ばれる新しい3次元形状分類手法を提案する。
詳細な3次元形状データセットに基づく結果から,本手法が他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-26T06:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。