論文の概要: RCGNet: RGB-based Category-Level 6D Object Pose Estimation with Geometric Guidance
- arxiv url: http://arxiv.org/abs/2508.13623v1
- Date: Tue, 19 Aug 2025 08:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.850304
- Title: RCGNet: RGB-based Category-Level 6D Object Pose Estimation with Geometric Guidance
- Title(参考訳): RCGNet:幾何学的ガイダンスを用いたRGBベースのカテゴリーレベル6次元オブジェクトポス推定
- Authors: Sheng Yu, Di-Hua Zhai, Yuanqing Xia,
- Abstract要約: RGB画像のみに依存する新しいカテゴリレベルのオブジェクトポーズ推定手法を提案する。
本手法は,奥行きデータを必要としない実世界のシナリオにおける正確なポーズ推定を可能にする。
- 参考スコア(独自算出の注目度): 11.283796920965745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While most current RGB-D-based category-level object pose estimation methods achieve strong performance, they face significant challenges in scenes lacking depth information. In this paper, we propose a novel category-level object pose estimation approach that relies solely on RGB images. This method enables accurate pose estimation in real-world scenarios without the need for depth data. Specifically, we design a transformer-based neural network for category-level object pose estimation, where the transformer is employed to predict and fuse the geometric features of the target object. To ensure that these predicted geometric features faithfully capture the object's geometry, we introduce a geometric feature-guided algorithm, which enhances the network's ability to effectively represent the object's geometric information. Finally, we utilize the RANSAC-PnP algorithm to compute the object's pose, addressing the challenges associated with variable object scales in pose estimation. Experimental results on benchmark datasets demonstrate that our approach is not only highly efficient but also achieves superior accuracy compared to previous RGB-based methods. These promising results offer a new perspective for advancing category-level object pose estimation using RGB images.
- Abstract(参考訳): 現在のRGB-Dに基づくカテゴリレベルのオブジェクトポーズ推定手法は高い性能を達成するが、深度情報がないシーンでは大きな課題に直面している。
本稿では,RGB画像のみに依存するカテゴリレベルのオブジェクトポーズ推定手法を提案する。
本手法は,奥行きデータを必要としない実世界のシナリオにおける正確なポーズ推定を可能にする。
具体的には,対象物体の幾何学的特徴を予測・融合するためにトランスフォーマーを用いる,カテゴリレベルのオブジェクトポーズ推定のためのトランスフォーマーベースニューラルネットワークを設計する。
これらの予測幾何特徴がオブジェクトの幾何を忠実に捉えることを保証するため、我々は、オブジェクトの幾何情報を効果的に表現するネットワークの能力を高める幾何学的特徴誘導アルゴリズムを導入する。
最後に、RANSAC-PnPアルゴリズムを用いてオブジェクトのポーズを計算し、ポーズ推定における可変オブジェクトスケールに関連する課題に対処する。
ベンチマークによる実験結果から,本手法は高効率であるだけでなく,従来のRGB法と比較して精度も優れていることが示された。
これらの有望な結果は、RGB画像を用いたカテゴリレベルのオブジェクトポーズ推定を推し進めるための新しい視点を提供する。
関連論文リスト
- CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image [86.75098349480014]
本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定に取り組む。
そこで本研究では,Categorical Articulated Partsの6次元ポーズとサイズを推定するためのシングルステージネットワークCAP-Netを提案する。
我々は,RGB画像と実センサからシミュレーションした深度雑音を特徴とするRGB-D調音データセットであるRGBD-Artデータセットを紹介した。
論文 参考訳(メタデータ) (2025-04-15T14:30:26Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。
本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。
提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。