論文の概要: PinPoint3D: Fine-Grained 3D Part Segmentation from a Few Clicks
- arxiv url: http://arxiv.org/abs/2509.25970v1
- Date: Tue, 30 Sep 2025 09:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.076236
- Title: PinPoint3D: Fine-Grained 3D Part Segmentation from a Few Clicks
- Title(参考訳): PinPoint3D:小さなクリックで3Dパーツを細分化
- Authors: Bojun Zhang, Hangjian Ye, Hao Zheng, Jianzheng Huang, Zhengyu Lin, Zhenhong Guo, Feng Zheng,
- Abstract要約: PinPoint3Dは、細粒度で多粒度な3Dセグメンテーションのための新しいインタラクティブフレームワークである。
数個のユーザーポイントクリックで正確な部分レベルのマスクを生成する。
私たちの研究は、よりニュアンスで正確なマシン認識とインタラクションに向けた重要なステップを示しています。
- 参考スコア(独自算出の注目度): 37.718136287542556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained 3D part segmentation is crucial for enabling embodied AI systems to perform complex manipulation tasks, such as interacting with specific functional components of an object. However, existing interactive segmentation methods are largely confined to coarse, instance-level targets, while non-interactive approaches struggle with sparse, real-world scans and suffer from a severe lack of annotated data. To address these limitations, we introduce PinPoint3D, a novel interactive framework for fine-grained, multi-granularity 3D segmentation, capable of generating precise part-level masks from only a few user point clicks. A key component of our work is a new 3D data synthesis pipeline that we developed to create a large-scale, scene-level dataset with dense part annotations, overcoming a critical bottleneck that has hindered progress in this field. Through comprehensive experiments and user studies, we demonstrate that our method significantly outperforms existing approaches, achieving an average IoU of around 55.8% on each object part under first-click settings and surpassing 71.3% IoU with only a few additional clicks. Compared to current state-of-the-art baselines, PinPoint3D yields up to a 16% improvement in IoU and precision, highlighting its effectiveness on challenging, sparse point clouds with high efficiency. Our work represents a significant step towards more nuanced and precise machine perception and interaction in complex 3D environments.
- Abstract(参考訳): 具体化されたAIシステムが、オブジェクトの特定の機能コンポーネントと対話するなど、複雑な操作タスクを実行できるようにするために、きめ細かい3D部分のセグメンテーションが不可欠である。
しかし、既存の対話的セグメンテーション手法は、大部分は粗いインスタンスレベルのターゲットに限られているが、非対話的アプローチはスパースで現実世界のスキャンに苦慮し、注釈付きデータの深刻な欠如に悩まされている。
これらの制約に対処するために,数個のユーザポイントクリックから正確な部分レベルマスクを生成することができる,粒度,多粒度3Dセグメンテーションのための対話型フレームワークであるPinPoint3Dを導入する。
私たちの研究の重要なコンポーネントは、3Dデータ合成パイプラインです。このパイプラインは、高密度な部分アノテーションを備えた大規模でシーンレベルのデータセットを作成するために、この分野の進歩を妨げる重要なボトルネックを克服するために開発しました。
包括的実験とユーザスタディにより,本手法は既存手法を著しく上回り,各オブジェクト部分の平均IoUは約55.8%をワンクリックで達成し,71.3%のIoUを数クリックで上回った。
現在の最先端のベースラインと比較すると、PinPoint3DはIoUと精度を最大16%改善し、高い効率でスパースポイントの雲に挑戦する効果を強調している。
我々の研究は、複雑な3D環境におけるよりニュアンスで精密なマシン認識と相互作用に向けた重要な一歩である。
関連論文リスト
- Easy3D: A Simple Yet Effective Method for 3D Interactive Segmentation [10.2138250640885]
本稿では,ドメイン内およびドメイン外両方のデータセットにおいて,従来の最先端技術を上回る3次元インタラクティブセグメンテーション手法を提案する。
我々の単純なアプローチは、Voxelベースのスパースエンコーダと、暗黙のクリック融合を実装した軽量なトランスフォーマーベースのデコーダを統合する。
提案手法は,ScanNet,ScanNet++,S3DIS,KITTI-360など,ベンチマークデータセットの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-04-15T09:49:51Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - FunGraph: Functionality Aware 3D Scene Graphs for Language-Prompted Scene Interaction [1.8124328823188356]
本研究の目的は,ロボットが環境と直接対話できる表現を開発することである。
我々は、より細かな解像度でオブジェクトを検出し、保存することに集中し、価格関連部品に焦点をあてる。
現在利用可能な3Dリソースを活用して、2Dデータを生成し、検出器をトレーニングし、標準の3Dシーングラフ生成パイプラインを拡張するために使用します。
論文 参考訳(メタデータ) (2025-03-10T23:13:35Z) - 3D-CDRGP: Towards Cross-Device Robotic Grasping Policy in 3D Open World [20.406334587479623]
デバイス間の研究は緊急の課題となり、取り組まなければならない。
私たちは、3Dオープンワールドにおけるクロスデバイス(カメラとロボティクス)の把握政策の先駆者です。
SSGC-Segモジュールは,カテゴリに依存しない3Dオブジェクト検出を可能にする。
論文 参考訳(メタデータ) (2024-11-27T08:23:28Z) - 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - iDet3D: Towards Efficient Interactive Object Detection for LiDAR Point
Clouds [39.261055567560724]
我々は,効率的な対話型3Dオブジェクト検出器iDet3Dを提案する。
iDet3Dはユーザフレンドリーな2Dインターフェースをサポートし、3D空間を探索する際の認知的負担を軽減する。
そこで本手法は,数クリックで正確なアノテーションを構築することができることを示す。
論文 参考訳(メタデータ) (2023-12-24T09:59:46Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。