論文の概要: Learning Point Cloud Representations with Pose Continuity for Depth-Based Category-Level 6D Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2508.14358v1
- Date: Wed, 20 Aug 2025 02:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.31209
- Title: Learning Point Cloud Representations with Pose Continuity for Depth-Based Category-Level 6D Object Pose Estimation
- Title(参考訳): 深度に基づくカテゴリーレベル6次元オブジェクトポス推定のためのポス連続性を用いたポイントクラウド表現の学習
- Authors: Zhujun Li, Shuo Zhang, Ioannis Stamos,
- Abstract要約: HRC-Poseは,カテゴリレベルのオブジェクトポーズ推定のための,新しい奥行きのみのフレームワークである。
HRC-Poseはオブジェクトをローテーションと翻訳のコンポーネントに分解し、ネットワーク全体で個別にエンコードされ、活用される。
REAL275およびCAMERA25ベンチマークの結果、我々の手法は既存の深さのみの最先端手法よりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 5.473857267110271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Category-level object pose estimation aims to predict the 6D pose and 3D size of objects within given categories. Existing approaches for this task rely solely on 6D poses as supervisory signals without explicitly capturing the intrinsic continuity of poses, leading to inconsistencies in predictions and reduced generalization to unseen poses. To address this limitation, we propose HRC-Pose, a novel depth-only framework for category-level object pose estimation, which leverages contrastive learning to learn point cloud representations that preserve the continuity of 6D poses. HRC-Pose decouples object pose into rotation and translation components, which are separately encoded and leveraged throughout the network. Specifically, we introduce a contrastive learning strategy for multi-task, multi-category scenarios based on our 6D pose-aware hierarchical ranking scheme, which contrasts point clouds from multiple categories by considering rotational and translational differences as well as categorical information. We further design pose estimation modules that separately process the learned rotation-aware and translation-aware embeddings. Our experiments demonstrate that HRC-Pose successfully learns continuous feature spaces. Results on REAL275 and CAMERA25 benchmarks show that our method consistently outperforms existing depth-only state-of-the-art methods and runs in real-time, demonstrating its effectiveness and potential for real-world applications. Our code is at https://github.com/zhujunli1993/HRC-Pose.
- Abstract(参考訳): カテゴリーレベルのオブジェクトポーズ推定は、所定のカテゴリ内のオブジェクトの6次元ポーズと3次元サイズを予測することを目的としている。
このタスクの既存のアプローチは、ポーズの本質的な連続性を明示的に捉えることなく、6Dのポーズを監督信号としてのみ依存し、予測の不整合を生じさせ、目に見えないポーズへの一般化を減少させる。
この制限に対処するために,6次元ポーズの連続性を保った点クラウド表現の学習にコントラスト学習を活用する,カテゴリレベルのオブジェクトポーズ推定のための新しい深度限定フレームワークであるHRC-Poseを提案する。
HRC-Poseはオブジェクトをローテーションと翻訳のコンポーネントに分解し、ネットワーク全体で個別にエンコードされ、活用される。
具体的には,6次元ポーズアウェアな階層的ランキングスキームに基づくマルチタスク・マルチカテゴリ・シナリオに対する対照的な学習戦略を提案する。
さらに、学習した回転認識と翻訳認識の埋め込みを別々に処理するポーズ推定モジュールを設計する。
実験の結果,HRC-Poseは連続的な特徴空間の学習に成功していることがわかった。
REAL275とCAMERA25ベンチマークの結果、我々の手法は既存の深さのみの最先端の手法を常に上回り、リアルタイムに動作し、実世界のアプリケーションの有効性と可能性を示している。
私たちのコードはhttps://github.com/zhujunli 1993/HRC-Poseにあります。
関連論文リスト
- FreeZe: Training-free zero-shot 6D pose estimation with geometric and vision foundation models [5.754251195342313]
私たちは、特定のデータでトレーニングすることなく、同じタスクに取り組む方法を示します。
我々は、事前学習された幾何学的および視覚的基礎モデルの能力を利用する新しいソリューションFreeZeを提案する。
FreeZeは、合成6Dポーズ推定データで広く訓練されたライバルを含む、最先端のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2023-12-01T22:00:14Z) - Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot,
Generalizable Approach using RGB Images [60.0898989456276]
本稿では,数ショットの6DoFポーズ推定のためのCas6Dという新しいフレームワークを提案する。
極めて少数の設定で対象物検出の偽陽性に対処するために,本フレームワークでは,自己教師付き事前学習型ViTを用いて,ロバストな特徴表現を学習する。
LINEMODとGenMOPデータセットの実験結果は、Cas6Dが32ショット設定で最先端の手法を9.2%、精度3.8%(Proj-5)で上回ることを示した。
論文 参考訳(メタデータ) (2023-06-13T07:45:42Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - Self-Supervised Geometric Correspondence for Category-Level 6D Object
Pose Estimation in the Wild [47.80637472803838]
本研究では,大規模現実世界のオブジェクトビデオを直接学習し,カテゴリーレベルの6Dポーズ推定を行う自己教師型学習手法を提案する。
本フレームワークは,対象カテゴリの正準3次元形状を再構成し,入力画像と正準形状との密接な対応を表面埋め込みにより学習する。
意外なことに、人間のアノテーションやシミュレータを使わずに、従来の教師付きあるいは半教師付き画像の半教師付き手法よりも、オンパーまたはそれ以上のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2022-10-13T17:19:22Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - GPV-Pose: Category-level Object Pose Estimation via Geometry-guided
Point-wise Voting [103.74918834553249]
GPV-Poseはロバストなカテゴリーレベルのポーズ推定のための新しいフレームワークである。
幾何学的洞察を利用して、カテゴリーレベルのポーズ感応的特徴の学習を強化する。
一般的な公開ベンチマークにおいて、最先端の競合相手に優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-03-15T13:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。