論文の概要: LaPose: Laplacian Mixture Shape Modeling for RGB-Based Category-Level Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2409.15727v1
- Date: Tue, 24 Sep 2024 04:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 09:01:07.467676
- Title: LaPose: Laplacian Mixture Shape Modeling for RGB-Based Category-Level Object Pose Estimation
- Title(参考訳): LaPose:RGBに基づくカテゴリーレベルオブジェクトポース推定のためのラプラス混合形状モデリング
- Authors: Ruida Zhang, Ziqin Huang, Gu Wang, Chenyangguang Zhang, Yan Di, Xingxing Zuo, Jiwen Tang, Xiangyang Ji,
- Abstract要約: LaPoseは、オブジェクトの形状をPose推定のためのLaplacian混合モデルとしてモデル化する、新しいフレームワークである。
各点を確率分布として表現することにより、形状の不確実性を明確に定量化する。
LaPoseは、カテゴリレベルのオブジェクトポーズ推定における最先端のパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 43.549593231397644
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While RGBD-based methods for category-level object pose estimation hold promise, their reliance on depth data limits their applicability in diverse scenarios. In response, recent efforts have turned to RGB-based methods; however, they face significant challenges stemming from the absence of depth information. On one hand, the lack of depth exacerbates the difficulty in handling intra-class shape variation, resulting in increased uncertainty in shape predictions. On the other hand, RGB-only inputs introduce inherent scale ambiguity, rendering the estimation of object size and translation an ill-posed problem. To tackle these challenges, we propose LaPose, a novel framework that models the object shape as the Laplacian mixture model for Pose estimation. By representing each point as a probabilistic distribution, we explicitly quantify the shape uncertainty. LaPose leverages both a generalized 3D information stream and a specialized feature stream to independently predict the Laplacian distribution for each point, capturing different aspects of object geometry. These two distributions are then integrated as a Laplacian mixture model to establish the 2D-3D correspondences, which are utilized to solve the pose via the PnP module. In order to mitigate scale ambiguity, we introduce a scale-agnostic representation for object size and translation, enhancing training efficiency and overall robustness. Extensive experiments on the NOCS datasets validate the effectiveness of LaPose, yielding state-of-the-art performance in RGB-based category-level object pose estimation. Codes are released at https://github.com/lolrudy/LaPose
- Abstract(参考訳): カテゴリレベルのオブジェクトのポーズ推定のためのRGBDベースの手法は期待できるが、深度データへの依存は様々なシナリオにおける適用性を制限している。
これに対し、近年の取り組みはRGBベースの手法に転換しているが、深度情報がないことから生じる重大な課題に直面している。
一方、深さの欠如は、クラス内形状の変化を扱うことの難しさを増し、形状予測の不確かさが増大する。
一方、RGBのみの入力は本質的にスケールの曖昧さを導入し、オブジェクトサイズの推定と翻訳は不適切な問題である。
これらの課題に対処するために、私たちは、ポース推定のためのラプラシア混合モデルとしてオブジェクト形状をモデル化する新しいフレームワークであるLaPoseを提案する。
各点を確率分布として表現することにより、形状の不確実性を明確に定量化する。
LaPoseは、一般化された3D情報ストリームと特殊な特徴ストリームの両方を活用して、各点のラプラシア分布を独立に予測し、オブジェクト幾何学の異なる側面をキャプチャする。
これらの2つの分布はラプラシア混合モデルとして統合され、2D-3D対応を確立する。
スケールのあいまいさを軽減するため,物体の大きさと翻訳のスケールに依存しない表現を導入し,訓練効率と全体的な堅牢性を向上させる。
NOCSデータセットの大規模な実験によりLaPoseの有効性が検証され、RGBベースのカテゴリレベルのオブジェクトポーズ推定における最先端のパフォーマンスが得られた。
コードはhttps://github.com/lolrudy/LaPoseで公開されている。
関連論文リスト
- Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - FoundPose: Unseen Object Pose Estimation with Foundation Features [11.32559845631345]
FoundPoseは、単一のRGB画像から見えないオブジェクトを6Dポーズで推定するモデルベースの手法である。
この方法は、オブジェクトやタスク固有のトレーニングを必要とせずに、3Dモデルを使って、新しいオブジェクトを素早くオンボードできる。
論文 参考訳(メタデータ) (2023-11-30T18:52:29Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。
本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。
提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose
Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。
また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:24Z) - Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation [74.76155168705975]
Deep Bingham Networks (DBN)は、3Dデータに関するほぼすべての実生活アプリケーションで発生するポーズ関連の不確実性と曖昧性を扱うことができる。
DBNは、(i)異なる分布モードを生成できる多仮説予測ヘッドにより、アートダイレクトポーズ回帰ネットワークの状態を拡張する。
トレーニング中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-12-20T19:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。