論文の概要: Find Any Part in 3D
- arxiv url: http://arxiv.org/abs/2411.13550v2
- Date: Fri, 28 Mar 2025 04:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 18:43:44.972687
- Title: Find Any Part in 3D
- Title(参考訳): 3Dでどんな部分でも探す
- Authors: Ziqi Ma, Yisong Yue, Georgia Gkioxari,
- Abstract要約: 2Dファウンデーションモデルを利用したデータエンジンを構築することで,このデータバリアを壊すことが可能であることを示す。
私たちのデータエンジンは、任意の数のオブジェクト部品に自動的に注釈を付けます。
我々はmIoUの260%の改善を実現し、速度を6倍から300倍に向上させた。
- 参考スコア(独自算出の注目度): 29.232543319667005
- License:
- Abstract: Why don't we have foundation models in 3D yet? A key limitation is data scarcity. For 3D object part segmentation, existing datasets are small in size and lack diversity. We show that it is possible to break this data barrier by building a data engine powered by 2D foundation models. Our data engine automatically annotates any number of object parts: 1755x more unique part types than existing datasets combined. By training on our annotated data with a simple contrastive objective, we obtain an open-world model that generalizes to any part in any object based on any text query. Even when evaluated zero-shot, we outperform existing methods on the datasets they train on. We achieve 260% improvement in mIoU and boost speed by 6x to 300x. Our scaling analysis confirms that this generalization stems from the data scale, which underscores the impact of our data engine. Finally, to advance general-category open-world 3D part segmentation, we release a benchmark covering a wide range of objects and parts. Project website: https://ziqi-ma.github.io/find3dsite/
- Abstract(参考訳): 私たちはまだ3Dの基礎モデルを持っていませんか?
重要な制限はデータの不足である。
3Dオブジェクト部分のセグメンテーションでは、既存のデータセットはサイズが小さく、多様性がない。
2Dファウンデーションモデルを利用したデータエンジンを構築することで,このデータバリアを壊すことが可能であることを示す。
私たちのデータエンジンは、任意の数のオブジェクト部品に自動的に注釈を付けます。
注釈付きデータを単純なコントラスト目的でトレーニングすることにより、任意のテキストクエリに基づいて任意のオブジェクトの任意の部分に一般化するオープンワールドモデルを得る。
ゼロショットを評価しても、トレーニングしたデータセットの既存のメソッドよりも優れています。
我々はmIoUの260%の改善を実現し、速度を6倍から300倍に向上させた。
我々のスケーリング分析では、この一般化は、データエンジンの影響を裏付けるデータスケールに由来することを確認しています。
最後に、一般分野のオープンワールド3D部分セグメンテーションを進めるために、幅広いオブジェクトや部品をカバーするベンチマークをリリースする。
プロジェクトウェブサイト:https://ziqi-ma.github.io/find3dsite/
関連論文リスト
- Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
本稿では,階層的なオープンな3Dシーン表現を構築するためのアプローチであるSearch3Dを紹介する。
従来の方法とは異なり、Search3Dはより柔軟なオープンな3D検索パラダイムにシフトする。
体系的な評価のために,MultiScanに基づくシーンスケールのオープンボキャブラリ3D部分セグメンテーションベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - 3x2: 3D Object Part Segmentation by 2D Semantic Correspondences [33.99493183183571]
本稿では,いくつかのアノテーション付き3D形状やリッチアノテーション付き2Dデータセットを活用して3Dオブジェクト部分のセグメンテーションを実現することを提案する。
我々は,様々な粒度レベルのベンチマークでSOTA性能を実現する3-By-2という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-12T19:08:00Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model [19.333506797686695]
本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。
我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。
本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
論文 参考訳(メタデータ) (2024-04-04T23:38:45Z) - Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without
Manual Labels [141.23836433191624]
現在の3Dシーンセグメンテーション手法は、手動で注釈付けされた3Dトレーニングデータセットに大きく依存している。
高品質な3Dセグメンテーションマスクを生成するクラス非依存の3Dシーンセグメンテーション法であるSegment3Dを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:57:11Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。