論文の概要: PicoPose: Progressive Pixel-to-Pixel Correspondence Learning for Novel Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2504.02617v2
- Date: Fri, 29 Aug 2025 06:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 13:41:09.894333
- Title: PicoPose: Progressive Pixel-to-Pixel Correspondence Learning for Novel Object Pose Estimation
- Title(参考訳): PicoPose:新しいオブジェクトポース推定のためのプログレッシブなPixel-to-Pixel対応学習
- Authors: Lihua Liu, Jiehong Lin, Zhenxin Liu, Kui Jia,
- Abstract要約: RGBベースの新しいオブジェクトポーズ推定は、ロボットアプリケーションの迅速なデプロイには不可欠だが、ゼロショットは依然として重要な課題である。
本稿では,3段階の画素対画素対応学習プロセスを用いて,この課題に対処するための新しいフレームワークであるPicoPoseを紹介する。
ピコポースは、粗い対応マップから平面内回転、スケール、および2次元翻訳を含む2次元アフィン変換を世界規模で回帰することで、対応を円滑にする。
- 参考スコア(独自算出の注目度): 43.61813474125629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-based novel object pose estimation is critical for rapid deployment in robotic applications, yet zero-shot generalization remains a key challenge. In this paper, we introduce PicoPose, a novel framework designed to tackle this task using a three-stage pixel-to-pixel correspondence learning process. Firstly, PicoPose matches features from the RGB observation with those from rendered object templates, identifying the best-matched template and establishing coarse correspondences. Secondly, PicoPose smooths the correspondences by globally regressing a 2D affine transformation, including in-plane rotation, scale, and 2D translation, from the coarse correspondence map. Thirdly, PicoPose applies the affine transformation to the feature map of the best-matched template and learns correspondence offsets within local regions to achieve fine-grained correspondences. By progressively refining the correspondences, PicoPose significantly improves the accuracy of object poses computed via PnP/RANSAC. PicoPose achieves state-of-the-art performance on the seven core datasets of the BOP benchmark, demonstrating exceptional generalization to novel objects. Code and trained models are available at https://github.com/foollh/PicoPose.
- Abstract(参考訳): RGBベースの新しいオブジェクトポーズ推定はロボットアプリケーションの迅速な展開には不可欠だが、ゼロショットの一般化は依然として重要な課題である。
本稿では,3段階の画素対画素対応学習プロセスを用いて,この課題に対処するための新しいフレームワークであるPicoPoseを紹介する。
まず、PicoPoseはRGBの観測結果とレンダリングされたオブジェクトテンプレートの特徴を一致させ、最高のマッチングテンプレートを特定し、粗い対応を確立する。
第2に、PicoPoseは粗い対応マップから平面内回転、スケール、および2次元翻訳を含む2次元アフィン変換を世界規模で回帰することで対応を円滑にする。
第3に、PicoPoseはベストマッチテンプレートの特徴写像にアフィン変換を適用し、局所領域内の対応オフセットを学習し、きめ細かい対応を達成する。
対応を徐々に洗練することにより、PicoPoseはPnP/RANSACで計算されたオブジェクトポーズの精度を大幅に改善する。
PicoPoseは、BOPベンチマークの7つのコアデータセットで最先端のパフォーマンスを実現し、新しいオブジェクトへの例外的な一般化を実証している。
コードとトレーニングされたモデルはhttps://github.com/foollh/PicoPose.orgで公開されている。
関連論文リスト
- FoundPose: Unseen Object Pose Estimation with Foundation Features [11.32559845631345]
FoundPoseは、単一のRGB画像から見えないオブジェクトを6Dポーズで推定するモデルベースの手法である。
この方法は、オブジェクトやタスク固有のトレーニングを必要とせずに、3Dモデルを使って、新しいオブジェクトを素早くオンボードできる。
論文 参考訳(メタデータ) (2023-11-30T18:52:29Z) - GigaPose: Fast and Robust Novel Object Pose Estimation via One Correspondence [64.77224422330737]
GigaPoseは、RGB画像におけるCADベースの新しいオブジェクトポーズ推定のための高速で堅牢で正確な方法である。
提案手法では,通常の3次元ではなく,2自由度空間でテンプレートをサンプリングする。
最先端の精度を実現し、既存の精錬手法とシームレスに統合することができる。
論文 参考訳(メタデータ) (2023-11-23T18:55:03Z) - Quantity-Aware Coarse-to-Fine Correspondence for Image-to-Point Cloud
Registration [4.954184310509112]
Image-to-point cloud registrationは、RGBイメージと参照ポイントクラウドの間の相対カメラのポーズを決定することを目的としている。
個々の点と画素とのマッチングは、モダリティギャップによって本質的に曖昧である。
本稿では,局所点集合と画素パッチ間の量認識対応を捉える枠組みを提案する。
論文 参考訳(メタデータ) (2023-07-14T03:55:54Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose
Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。
また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:24Z) - Geometric Correspondence Fields: Learned Differentiable Rendering for 3D
Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。
このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。
我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文 参考訳(メタデータ) (2020-07-17T12:34:38Z) - W-PoseNet: Dense Correspondence Regularized Pixel Pair Pose Regression [34.8793946023412]
本稿では,新しいポーズ推定アルゴリズムW-PoseNetを提案する。
入力データから6Dポーズ、モデル空間内の3D座標に密に回帰する。
YCB-Video と LineMOD のベンチマーク実験の結果,提案した W-PoseNet は一貫して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2019-12-26T15:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。