論文の概要: You Only Estimate Once: Unified, One-stage, Real-Time Category-level Articulated Object 6D Pose Estimation for Robotic Grasping
- arxiv url: http://arxiv.org/abs/2506.05719v1
- Date: Fri, 06 Jun 2025 03:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 21:34:56.760226
- Title: You Only Estimate Once: Unified, One-stage, Real-Time Category-level Articulated Object 6D Pose Estimation for Robotic Grasping
- Title(参考訳): 一度だけ見積もる:ロボットグラスピングのための一段階・一段階・実時間カテゴリー定位物体の6Dポス推定
- Authors: Jingshun Huang, Haitao Lin, Tianyu Wang, Yanwei Fu, Yu-Gang Jiang, Xiangyang Xue,
- Abstract要約: YOEOは、エンドツーエンドでインスタンスセグメンテーションとNPCS表現を出力する単一ステージのメソッドである。
我々は、統一ネットワークを使用してポイントワイズセマンティックラベルとセントロイドオフセットを生成し、同じパートインスタンスのポイントが同じセントロイドに投票できるようにする。
また,合成学習したモデルを実環境に展開し,200Hzでリアルタイムな視覚フィードバックを提供する。
- 参考スコア(独自算出の注目度): 119.41166438439313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of category-level pose estimation for articulated objects in robotic manipulation tasks. Recent works have shown promising results in estimating part pose and size at the category level. However, these approaches primarily follow a complex multi-stage pipeline that first segments part instances in the point cloud and then estimates the Normalized Part Coordinate Space (NPCS) representation for 6D poses. These approaches suffer from high computational costs and low performance in real-time robotic tasks. To address these limitations, we propose YOEO, a single-stage method that simultaneously outputs instance segmentation and NPCS representations in an end-to-end manner. We use a unified network to generate point-wise semantic labels and centroid offsets, allowing points from the same part instance to vote for the same centroid. We further utilize a clustering algorithm to distinguish points based on their estimated centroid distances. Finally, we first separate the NPCS region of each instance. Then, we align the separated regions with the real point cloud to recover the final pose and size. Experimental results on the GAPart dataset demonstrate the pose estimation capabilities of our proposed single-shot method. We also deploy our synthetically-trained model in a real-world setting, providing real-time visual feedback at 200Hz, enabling a physical Kinova robot to interact with unseen articulated objects. This showcases the utility and effectiveness of our proposed method.
- Abstract(参考訳): 本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定の問題に対処する。
最近の研究は、カテゴリーレベルでのパートポーズとサイズを推定する上で有望な結果を示している。
しかし、これらのアプローチは主に複雑な多段階パイプラインに従っており、まずポイントクラウドのインスタンスを分割し、次に6Dポーズの正規化された部分座標空間(NPCS)表現を推定する。
これらのアプローチは、リアルタイムロボットタスクにおいて、高い計算コストと低いパフォーマンスに悩まされる。
これらの制約に対処するために,インスタンス分割とNPCS表現をエンドツーエンドで同時に出力する単一ステージ手法であるYOEOを提案する。
我々は、統一ネットワークを使用してポイントワイズセマンティックラベルとセントロイドオフセットを生成し、同じパートインスタンスのポイントが同じセントロイドに投票できるようにする。
さらに、クラスタリングアルゴリズムを用いて、推定されたセンチロイド距離に基づいて点を識別する。
最後に、まず各インスタンスのNPCS領域を分離する。
次に、分離された領域を実点雲に整列させて、最終的なポーズとサイズを復元する。
GAPartデータセットの実験結果から,提案手法のポーズ推定能力を実証した。
また,合成学習したモデルを実環境に展開し,200Hzでリアルタイムな視覚フィードバックを提供することで,物理的なKinovaロボットが未知の明瞭な物体と対話することを可能にする。
提案手法の有効性と有効性を示す。
関連論文リスト
- CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image [86.75098349480014]
本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定に取り組む。
そこで本研究では,Categorical Articulated Partsの6次元ポーズとサイズを推定するためのシングルステージネットワークCAP-Netを提案する。
我々は,RGB画像と実センサからシミュレーションした深度雑音を特徴とするRGB-D調音データセットであるRGBD-Artデータセットを紹介した。
論文 参考訳(メタデータ) (2025-04-15T14:30:26Z) - Robust Human Registration with Body Part Segmentation on Noisy Point Clouds [73.00876572870787]
メッシュフィッティングプロセスにボディ部分のセグメンテーションを組み込んだハイブリッドアプローチを導入する。
本手法はまず,まず各点にボディ部ラベルを割り当て,次に2ステップのSMPL-Xフィッティングを導出する。
装着された人間のメッシュは、ボディ部分のラベルを洗練し、セグメンテーションの改善につながることを実証する。
論文 参考訳(メタデータ) (2025-04-04T17:17:33Z) - Local Occupancy-Enhanced Object Grasping with Multiple Triplanar Projection [24.00828999360765]
本稿では,一般的な物体をロボットでつかむという課題に対処する。
提案したモデルはまず、シーン内で最も可能性の高いいくつかの把握ポイントを提案する。
各グリップポイントの周囲に、モジュールはその近傍にある任意のボクセルが空か、ある物体に占有されているかを推測するように設計されている。
モデルはさらに、局所占有力向上した物体形状情報を利用して、6-DoFグリップポーズを推定する。
論文 参考訳(メタデータ) (2024-07-22T16:22:28Z) - Point-Set Anchors for Object Detection, Instance Segmentation and Pose
Estimation [85.96410825961966]
中心点から抽出された画像の特徴は、離れたキーポイントや境界ボックスの境界を予測するための限られた情報を含んでいると論じる。
推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。
我々は、オブジェクト検出、インスタンス分割、人間のポーズ推定にPoint-Set Anchorsと呼ばれるこのフレームワークを適用した。
論文 参考訳(メタデータ) (2020-07-06T15:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。