論文の概要: Generalizable Articulated Object Perception with Superpoints
- arxiv url: http://arxiv.org/abs/2412.16656v1
- Date: Sat, 21 Dec 2024 14:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:26.989675
- Title: Generalizable Articulated Object Perception with Superpoints
- Title(参考訳): スーパーポイントを用いた一般化可能な人工物体知覚
- Authors: Qiaojun Yu, Ce Hao, Xibin Yuan, Li Zhang, Liu Liu, Yukang Huo, Rohit Agarwal, Cewu Lu,
- Abstract要約: そこで我々は,3次元物体の3次元点雲における部分分割を改善するために,新しいスーパーポイント・ベースの知覚手法を提案する。
本稿では,その幾何学的および意味的類似性に基づいて,効率よくポイントをグループ化する,学習可能な部分認識スーパーポイント生成手法を提案する。
GAPartNetデータセットを用いた実験結果から,提案手法はクロスカテゴリ部分分割における既存の最先端手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 42.52926364769424
- License:
- Abstract: Manipulating articulated objects with robotic arms is challenging due to the complex kinematic structure, which requires precise part segmentation for efficient manipulation. In this work, we introduce a novel superpoint-based perception method designed to improve part segmentation in 3D point clouds of articulated objects. We propose a learnable, part-aware superpoint generation technique that efficiently groups points based on their geometric and semantic similarities, resulting in clearer part boundaries. Furthermore, by leveraging the segmentation capabilities of the 2D foundation model SAM, we identify the centers of pixel regions and select corresponding superpoints as candidate query points. Integrating a query-based transformer decoder further enhances our method's ability to achieve precise part segmentation. Experimental results on the GAPartNet dataset show that our method outperforms existing state-of-the-art approaches in cross-category part segmentation, achieving AP50 scores of 77.9% for seen categories (4.4% improvement) and $39.3\%$ for unseen categories (11.6% improvement), with superior results in 5 out of 9 part categories for seen objects and outperforming all previous methods across all part categories for unseen objects.
- Abstract(参考訳): ロボットアームで関節した物体を操作することは、複雑な運動構造のために困難である。
本研究では,3次元物体の3次元点群における部分分割を改善するために,新しいスーパーポイントベース知覚法を提案する。
本稿では,その幾何学的および意味的類似性に基づいて,効率よくポイントをグループ化する,学習可能な部分認識型スーパーポイント生成手法を提案する。
さらに、2DファンデーションモデルSAMのセグメンテーション機能を活用して、画素領域の中心を特定し、対応するスーパーポイントを候補クエリポイントとして選択する。
クエリベースのトランスフォーマーデコーダを統合することで、正確な部分セグメンテーションを実現する方法がさらに強化される。
GAPartNetデータセットを用いた実験結果から,本手法は,既存手法のカテゴリ間セグメンテーションよりも優れており,AP50スコアが77.9%,未確認カテゴリが39.3.%,未確認カテゴリが11.6%,表示対象が9つのカテゴリ中5つ,未確認オブジェクトが全カテゴリで従来手法よりも優れた結果が得られた。
関連論文リスト
- From Pixels to Objects: A Hierarchical Approach for Part and Object Segmentation Using Local and Global Aggregation [24.51617545483278]
画像分割タスクのための階層型トランスフォーマーモデルを提案する。
我々のアプローチの核心は、個々のピクセルからスーパーピクセルへと体系的に進化するマルチレベル表現戦略である。
このアーキテクチャは、ローカルアグリゲーションとグローバルアグリゲーションという2つの重要なアグリゲーション戦略によって支えられている。
論文 参考訳(メタデータ) (2024-09-02T16:13:26Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Towards Open-World Segmentation of Parts [16.056921233445784]
本稿では,クラスに依存しない部分分割タスクを提案する。
パートクラスなしでトレーニングされたモデルは、トレーニング時に見えない部分のローカライズとオブジェクトへのセグメンテーションを改善することができる、と私たちは主張する。
当社のアプローチでは,オープンワールドのパートセグメンテーションに向けた重要なステップとして,注目すべきかつ一貫した成果をあげています。
論文 参考訳(メタデータ) (2023-05-26T10:34:58Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z) - GAPartNet: Cross-Category Domain-Generalizable Object Perception and
Manipulation via Generalizable and Actionable Parts [28.922958261132475]
我々はGAParts(Generalizable and Actionable Parts)を通してクロスカテゴリスキルを学ぶ
GAPartNetに基づいて,部分分割,部分ポーズ推定,部分ベースオブジェクト操作という3つのクロスカテゴリタスクについて検討する。
本手法は,見知らぬカテゴリーによらず,既存の手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-11-10T00:30:22Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - 3D Compositional Zero-shot Learning with DeCompositional Consensus [102.7571947144639]
我々は、部分的知識は観察されたオブジェクトクラスを超えて構成可能であるべきだと論じる。
本稿では、視覚から見えないオブジェクトクラスへの部分一般化の問題として、3D合成ゼロショット学習を提案する。
論文 参考訳(メタデータ) (2021-11-29T16:34:53Z) - LRGNet: Learnable Region Growing for Class-Agnostic Point Cloud
Segmentation [19.915593390338337]
本研究は,クラス非依存のクラウドセグメンテーションのための学習可能な領域成長手法を提案する。
提案手法は, 物体の形状や大きさを仮定することなく, 単一の深層ニューラルネットワークを用いて任意のクラスを分割することができる。
論文 参考訳(メタデータ) (2021-03-16T15:58:01Z) - Interpretable and Accurate Fine-grained Recognition via Region Grouping [14.28113520947247]
微粒な視覚認識のための解釈可能な深層モデルを提案する。
私たちの手法の中核は、ディープニューラルネットワーク内での領域ベースの部分発見と帰属の統合です。
本研究は,分類タスクの最先端手法と比較した。
論文 参考訳(メタデータ) (2020-05-21T01:18:26Z) - PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation [111.7241018610573]
私たちは、インスタンスセグメンテーションのための新しいエンドツーエンドボトムアップアーキテクチャであるPointGroupを紹介します。
我々は2分岐ネットワークを設計し、ポイントの特徴を抽出し、セマンティックラベルとオフセットを予測し、各ポイントをそれぞれのインスタンスセントロイドに向けてシフトさせる。
クラスタリングコンポーネントは、元のおよびオフセットシフトされた点座標セットの両方を利用するために、その相補的な強度を利用する。
ScanNet v2 と S3DIS の2つの挑戦的データセットに対する広範な実験を行い、ScanNet v2 と S3DIS が最も高い性能を達成し、63.6% と 64.0% の2つを以前のベストが達成した54.9% と54.4% と比較した。
論文 参考訳(メタデータ) (2020-04-03T16:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。