論文の概要: GCE-Pose: Global Context Enhancement for Category-level Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2502.04293v1
- Date: Thu, 06 Feb 2025 18:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 15:30:40.913628
- Title: GCE-Pose: Global Context Enhancement for Category-level Object Pose Estimation
- Title(参考訳): GCE-Pose:カテゴリーレベルのオブジェクトポース推定のためのグローバルコンテキスト拡張
- Authors: Weihang Li, Hongli Xu, Junwen Huang, Hyunjun Jung, Peter KT Yu, Nassir Navab, Benjamin Busam,
- Abstract要約: モデルフリーなカテゴリレベルのポーズ推定における重要な課題は、特定のカテゴリ内の様々なインスタンスにまたがって一般化されるコンテキストオブジェクトの特徴の抽出である。
GCE-Poseは、カテゴリレベルのグローバルコンテキストを予め統合することにより、新規インスタンスのポーズ推定を強化する手法である。
- 参考スコア(独自算出の注目度): 52.910282443646864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in model-free category-level pose estimation is the extraction of contextual object features that generalize across varying instances within a specific category. Recent approaches leverage foundational features to capture semantic and geometry cues from data. However, these approaches fail under partial visibility. We overcome this with a first-complete-then-aggregate strategy for feature extraction utilizing class priors. In this paper, we present GCE-Pose, a method that enhances pose estimation for novel instances by integrating category-level global context prior. GCE-Pose performs semantic shape reconstruction with a proposed Semantic Shape Reconstruction (SSR) module. Given an unseen partial RGB-D object instance, our SSR module reconstructs the instance's global geometry and semantics by deforming category-specific 3D semantic prototypes through a learned deep Linear Shape Model. We further introduce a Global Context Enhanced (GCE) feature fusion module that effectively fuses features from partial RGB-D observations and the reconstructed global context. Extensive experiments validate the impact of our global context prior and the effectiveness of the GCE fusion module, demonstrating that GCE-Pose significantly outperforms existing methods on challenging real-world datasets HouseCat6D and NOCS-REAL275. Our project page is available at https://colin-de.github.io/GCE-Pose/.
- Abstract(参考訳): モデルフリーなカテゴリレベルのポーズ推定における重要な課題は、特定のカテゴリ内の様々なインスタンスにまたがって一般化されるコンテキストオブジェクトの特徴の抽出である。
最近のアプローチでは、データから意味的および幾何学的手がかりをキャプチャする基礎的特徴を活用している。
しかし、これらのアプローチは部分的な可視性の下で失敗する。
クラスプリエントを利用した特徴抽出のための1次完全集合戦略でこれを克服する。
本稿では,カテゴリレベルのグローバルコンテキストを予め統合することにより,新規インスタンスのポーズ推定を強化する手法であるGCE-Poseを提案する。
GCE-Poseはセマンティック形状再構成(SSR)モジュールを用いてセマンティック形状再構成を行う。
我々のSSRモジュールは、目に見えない部分的なRGB-Dオブジェクトインスタンスを与えられた場合、学習された深い線形形状モデルを通してカテゴリ固有の3Dセマンティックプロトタイプを変形することにより、インスタンスのグローバルな幾何学と意味を再構築する。
さらに、部分的なRGB-D観測と再構成されたグローバルコンテキストから機能を効果的に融合するグローバルコンテキスト拡張(GCE)機能融合モジュールを導入する。
GCE-Pose は実世界のデータセットである HouseCat6D や NOCS-REAL275 に挑戦する上で,既存の手法よりも優れていることを示す。
私たちのプロジェクトページはhttps://colin-de.github.io/GCE-Pose/.com/で公開されています。
関連論文リスト
- Instance-Adaptive Keypoint Learning with Local-to-Global Geometric Aggregation for Category-Level Object Pose Estimation [19.117822086210513]
INKL-Poseは、新しいカテゴリレベルのオブジェクトポーズ推定フレームワークである。
Instance-Adaptive Keypoint Learningをローカル-グロバルな幾何学的アグリゲーションで実現している。
CAMERA25、REAL275、HouseCat6Dの実験は、INKL-Poseが最先端の性能を達成することを示した。
論文 参考訳(メタデータ) (2025-04-21T14:37:37Z) - Detection Based Part-level Articulated Object Reconstruction from Single RGBD Image [52.11275397911693]
本稿では,1枚のRGBD画像から複数の人工関節オブジェクトを再構成する,エンドツーエンドで訓練可能なクロスカテゴリ手法を提案する。
私たちは、あらかじめ定義された部分数で人工的なオブジェクトに焦点をあて、インスタンスレベルの潜在空間を学習することに依存する以前の作業から離れています。
提案手法は, 従来の作業では処理できない様々な構成された複数インスタンスの再構築に成功し, 形状再構成や運動学推定において, 先行の作業よりも優れていた。
論文 参考訳(メタデータ) (2025-04-04T05:08:04Z) - GIVEPose: Gradual Intra-class Variation Elimination for RGB-based Category-Level Object Pose Estimation [61.46277064819665]
GIVEPoseは,カテゴリレベルのオブジェクトのポーズ推定のための階層内変分除去を実装したフレームワークである。
GIVEPoseは、既存の最先端のRGBベースのアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2025-03-19T11:07:01Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - DTF-Net: Category-Level Pose Estimation and Shape Reconstruction via
Deformable Template Field [29.42222066097076]
RGB-Depth画像ペアから、オープンワールドシーンの6Dポーズの推定と3D形状の再構築は困難である。
本稿では,オブジェクトカテゴリの暗黙的ニューラルネットワークに基づくポーズ推定と形状再構成のための新しいフレームワークであるDTF-Netを提案する。
論文 参考訳(メタデータ) (2023-08-04T10:35:40Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - Monocular Human Pose and Shape Reconstruction using Part Differentiable
Rendering [53.16864661460889]
近年の研究では、3次元基底真理によって教師されるディープニューラルネットワークを介してパラメトリックモデルを直接推定する回帰に基づく手法が成功している。
本稿では,ボディセグメンテーションを重要な監視対象として紹介する。
部分分割による再構成を改善するために,部分分割により部分ベースモデルを制御可能な部分レベル微分可能部を提案する。
論文 参考訳(メタデータ) (2020-03-24T14:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。