論文の概要: Learning Shape-Independent Transformation via Spherical Representations for Category-Level Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2503.13926v1
- Date: Tue, 18 Mar 2025 05:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:07.619252
- Title: Learning Shape-Independent Transformation via Spherical Representations for Category-Level Object Pose Estimation
- Title(参考訳): カテゴリーレベルオブジェクトポス推定のための球面表現による形状非依存変換の学習
- Authors: Huan Ren, Wenfei Yang, Xiang Liu, Shifeng Zhang, Tianzhu Zhang,
- Abstract要約: カテゴリーレベルのオブジェクトポーズ推定は、特定のカテゴリにおける新しいオブジェクトのポーズとサイズを決定することを目的としている。
既存の対応に基づくアプローチは、通常、原始的な観測点と正規化されたオブジェクト座標の間の対応を確立するために点ベースの表現を採用する。
SpherePoseと呼ばれる新しいアーキテクチャを導入し、3つのコア設計を通して正確な対応予測を行う。
- 参考スコア(独自算出の注目度): 42.48001557547222
- License:
- Abstract: Category-level object pose estimation aims to determine the pose and size of novel objects in specific categories. Existing correspondence-based approaches typically adopt point-based representations to establish the correspondences between primitive observed points and normalized object coordinates. However, due to the inherent shape-dependence of canonical coordinates, these methods suffer from semantic incoherence across diverse object shapes. To resolve this issue, we innovatively leverage the sphere as a shared proxy shape of objects to learn shape-independent transformation via spherical representations. Based on this insight, we introduce a novel architecture called SpherePose, which yields precise correspondence prediction through three core designs. Firstly, We endow the point-wise feature extraction with SO(3)-invariance, which facilitates robust mapping between camera coordinate space and object coordinate space regardless of rotation transformation. Secondly, the spherical attention mechanism is designed to propagate and integrate features among spherical anchors from a comprehensive perspective, thus mitigating the interference of noise and incomplete point cloud. Lastly, a hyperbolic correspondence loss function is designed to distinguish subtle distinctions, which can promote the precision of correspondence prediction. Experimental results on CAMERA25, REAL275 and HouseCat6D benchmarks demonstrate the superior performance of our method, verifying the effectiveness of spherical representations and architectural innovations.
- Abstract(参考訳): カテゴリーレベルのオブジェクトポーズ推定は、特定のカテゴリにおける新しいオブジェクトのポーズとサイズを決定することを目的としている。
既存の対応に基づくアプローチは、通常、原始的な観測点と正規化されたオブジェクト座標の間の対応を確立するために点ベースの表現を採用する。
しかし、標準座標の固有な形状依存性のため、これらの手法は多様な物体の形状にまたがる意味的不整合に悩まされる。
この問題を解決するために、球面をオブジェクトの共有プロキシ形状として革新的に活用し、球面表現による形状非依存変換を学習する。
そこで本研究では,SpherePoseと呼ばれる新しいアーキテクチャを導入し,3つのコア設計による正確な対応予測を行う。
まず, 回転変換によらず, カメラ座標空間とオブジェクト座標空間とのロバストなマッピングを容易にするSO(3)不変の点次特徴抽出法を提案する。
第二に、球面アテンション機構は、包括的視点から球面アンカーの特徴を伝播し、統合することにより、ノイズと不完全点雲の干渉を緩和するように設計されている。
最後に、双曲型対応損失関数は微妙な区別を区別するために設計されており、対応予測の精度を高めることができる。
CAMERA25, REAL275およびHouseCat6Dベンチマークによる実験結果から, 球面表現の有効性とアーキテクチャの革新性を検証した。
関連論文リスト
- Interior Object Geometry via Fitted Frames [18.564031163436553]
本稿では,対象集団内での強い位置対応を実現するために,解剖学的対象を対象とする表現について述べる。
本手法は, 境界面および物体内部に嵌合したフレームを生成し, それらからアライメントフリーな幾何学的特徴を生成する。
論文 参考訳(メタデータ) (2024-07-19T14:38:47Z) - SecondPose: SE(3)-Consistent Dual-Stream Feature Fusion for Category-Level Pose Estimation [79.12683101131368]
カテゴリーレベルのオブジェクトのポーズ推定は、既知のカテゴリから6次元のポーズと3次元の大きさを予測することを目的としている。
我々は、DINOv2のセマンティックカテゴリにオブジェクト固有の幾何学的特徴を統合する新しいアプローチであるSecondPoseを提案する。
論文 参考訳(メタデータ) (2023-11-18T17:14:07Z) - Loop Closure Detection Based on Object-level Spatial Layout and Semantic
Consistency [14.694754836704819]
本稿では3次元シーングラフの空間的レイアウトとセマンティック一貫性に基づくオブジェクトベースのループ閉包検出手法を提案する。
実験により,提案手法によりより正確な3次元意味マップを構築可能であることが示された。
論文 参考訳(メタデータ) (2023-04-11T11:20:51Z) - Self-Supervised Category-Level Articulated Object Pose Estimation with
Part-Level SE(3) Equivariance [33.10167928198986]
カテゴリーレベルの調音オブジェクトポーズ推定は、未知の調音オブジェクトの調音オブジェクトポーズの階層を既知のカテゴリから推定することを目的としている。
我々は,人間ラベルを使わずにこの問題を解決する,新たな自己管理戦略を提案する。
論文 参考訳(メタデータ) (2023-02-28T03:02:11Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - RBP-Pose: Residual Bounding Box Projection for Category-Level Pose
Estimation [103.74918834553247]
カテゴリーレベルのオブジェクトポーズ推定は、既知のカテゴリの集合からの任意のオブジェクトの3次元メートル法サイズだけでなく、6次元のポーズを予測することを目的としている。
近年の手法では, 観測された点雲を標準空間にマッピングし, 梅山アルゴリズムを用いてポーズとサイズを復元する手法が提案されている。
本稿では,オブジェクトのポーズと残差ベクトルを共同で予測する,幾何学誘導型残差オブジェクト境界ボックス投影ネットワーク RBP-Pose を提案する。
論文 参考訳(メタデータ) (2022-07-30T14:45:20Z) - NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One
Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。
NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。
異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文 参考訳(メタデータ) (2021-06-17T12:25:44Z) - 3D Object Classification on Partial Point Clouds: A Practical
Perspective [91.81377258830703]
点雲は3次元オブジェクト分類において一般的な形状表現である。
本稿では,任意のポーズの下でオブジェクトインスタンスの部分点雲を分類する実践的な設定を提案する。
本稿では,アライメント分類手法による新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-18T04:00:56Z) - Cylindrical Convolutional Networks for Joint Object Detection and
Viewpoint Estimation [76.21696417873311]
3次元空間で定義された畳み込みカーネルの円筒形表現を利用する学習可能なモジュールである円筒型畳み込みネットワーク(CCN)を導入する。
CCNはビュー固有の畳み込みカーネルを通してビュー固有の特徴を抽出し、各視点におけるオブジェクトカテゴリスコアを予測する。
本実験は,円柱状畳み込みネットワークが関節物体の検出と視点推定に与える影響を実証する。
論文 参考訳(メタデータ) (2020-03-25T10:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。