論文の概要: CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image
- arxiv url: http://arxiv.org/abs/2504.11230v2
- Date: Thu, 17 Apr 2025 14:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 10:52:28.408010
- Title: CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image
- Title(参考訳): CAP-Net: 単一RGB-D画像からの6次元空間の統一ネットワークと分類的アーティケート部品の寸法推定
- Authors: Jingshun Huang, Haitao Lin, Tianyu Wang, Yanwei Fu, Xiangyang Xue, Yi Zhu,
- Abstract要約: 本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定に取り組む。
そこで本研究では,Categorical Articulated Partsの6次元ポーズとサイズを推定するためのシングルステージネットワークCAP-Netを提案する。
我々は,RGB画像と実センサからシミュレーションした深度雑音を特徴とするRGB-D調音データセットであるRGBD-Artデータセットを紹介した。
- 参考スコア(独自算出の注目度): 86.75098349480014
- License:
- Abstract: This paper tackles category-level pose estimation of articulated objects in robotic manipulation tasks and introduces a new benchmark dataset. While recent methods estimate part poses and sizes at the category level, they often rely on geometric cues and complex multi-stage pipelines that first segment parts from the point cloud, followed by Normalized Part Coordinate Space (NPCS) estimation for 6D poses. These approaches overlook dense semantic cues from RGB images, leading to suboptimal accuracy, particularly for objects with small parts. To address these limitations, we propose a single-stage Network, CAP-Net, for estimating the 6D poses and sizes of Categorical Articulated Parts. This method combines RGB-D features to generate instance segmentation and NPCS representations for each part in an end-to-end manner. CAP-Net uses a unified network to simultaneously predict point-wise class labels, centroid offsets, and NPCS maps. A clustering algorithm then groups points of the same predicted class based on their estimated centroid distances to isolate each part. Finally, the NPCS region of each part is aligned with the point cloud to recover its final pose and size. To bridge the sim-to-real domain gap, we introduce the RGBD-Art dataset, the largest RGB-D articulated dataset to date, featuring photorealistic RGB images and depth noise simulated from real sensors. Experimental evaluations on the RGBD-Art dataset demonstrate that our method significantly outperforms the state-of-the-art approach. Real-world deployments of our model in robotic tasks underscore its robustness and exceptional sim-to-real transfer capabilities, confirming its substantial practical utility. Our dataset, code and pre-trained models are available on the project page.
- Abstract(参考訳): 本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定に取り組み,新しいベンチマークデータセットを提案する。
最近の手法では、カテゴリーレベルでのポーズとサイズを推定するが、しばしば幾何学的なキューと複雑な多段パイプラインに頼り、点雲から最初に部品を分割し、次に6次元ポーズの正規化された部分座標空間(NPCS)を推定する。
これらのアプローチは、RGB画像からの密接なセマンティックキューを見落とし、特に小さな部分を持つオブジェクトに対して、最適以下の精度をもたらす。
これらの制約に対処するため、分類的Articulated Partsの6次元ポーズとサイズを推定するシングルステージネットワークCAP-Netを提案する。
この方法はRGB-D機能を組み合わせて,各部分のNPCS表現とインスタンスセグメンテーションをエンドツーエンドで生成する。
CAP-Netは統一ネットワークを使用して、ポイントワイドクラスラベル、セントロイドオフセット、NPCSマップを同時に予測する。
クラスタリングアルゴリズムは、推定されたセントロイド距離に基づいて、同じ予測クラスの点をグループ化し、各部分を分離する。
最後に、各部分のNPCS領域を点雲に整列させ、最終的なポーズと大きさを復元する。
RGBD-Artデータセットは、これまでで最大のRGB-D調音データセットであり、フォトリアリスティックなRGB画像と、実センサからシミュレーションされた奥行きノイズが特徴である。
RGBD-Artデータセットの実験的評価により,本手法が最先端の手法よりも優れていることが示された。
ロボットタスクにおける我々のモデルの現実的な展開は、その頑丈さと例外的なシミュレート・トゥ・リアルな伝達能力を強調し、実際の実用性を確認している。
私たちのデータセット、コード、事前トレーニングされたモデルは、プロジェクトページで利用可能です。
関連論文リスト
- Sparse Color-Code Net: Real-Time RGB-Based 6D Object Pose Estimation on Edge Devices [2.3281513013731145]
提案するColor-Code Net (SCCN) は,この要件に対処する明確かつ簡潔なパイプライン設計を具現化したものである。
SCCNはRGB画像中の対象オブジェクトに対して画素レベルの予測を行い、パースペクティブ-n-Pointプロセスの高速化に必須なオブジェクト幾何学的特徴の空間性を利用する。
特に、ベンチマークLINEMODデータセットとOcclusionMODデータセットで、19フレーム/秒(FPS)と6FPSの見積率を実現している。
論文 参考訳(メタデータ) (2024-06-05T06:21:48Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - Clothes Grasping and Unfolding Based on RGB-D Semantic Segmentation [21.950751953721817]
セグメンテーションのための双方向フラクタルクロスフュージョンネットワーク(BiFCNet)を提案する。
我々は、Fractal Cross FusionモジュールがRGBと深度データを融合するネットワークへの入力として、リッチな色特徴を持つRGB画像を使用する。
実データ収集のコストを削減するため,敵対的戦略に基づくデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-05-05T03:21:55Z) - Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。
本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文 参考訳(メタデータ) (2022-08-04T17:59:56Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z) - Pose Estimation of Specific Rigid Objects [0.7931904787652707]
本稿では,RGBまたはRGB-D入力画像から剛体物体の6次元ポーズを推定する問題に対処する。
この問題は、ロボット操作、拡張現実、自律運転など、多くの応用分野において非常に重要である。
論文 参考訳(メタデータ) (2021-12-30T14:36:47Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - 3D Point-to-Keypoint Voting Network for 6D Pose Estimation [8.801404171357916]
3次元キーポイントの空間構造特性に基づくRGB-Dデータから6次元ポーズ推定のためのフレームワークを提案する。
提案手法は, LINEMOD と OCCLUSION LINEMOD の2つのベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-12-22T11:43:15Z) - EPOS: Estimating 6D Pose of Objects with Symmetries [57.448933686429825]
1つのRGB入力から利用可能な3次元モデルを用いて、剛体物体の6次元ポーズを推定する新しい手法を提案する。
オブジェクトは、体系的な方法で対称性を許容するコンパクトな表面フラグメントによって表現される。
エンコーダデコーダネットワークを用いて,高密度サンプリング画素とフラグメントの対応性を予測する。
論文 参考訳(メタデータ) (2020-04-01T17:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。