Fugu-MT 論文翻訳(概要): RGB-based Category-level Object Pose Estimation via Decoupled Metric Scale Recovery

論文の概要: RGB-based Category-level Object Pose Estimation via Decoupled Metric Scale Recovery

arxiv url: http://arxiv.org/abs/2309.10255v2
Date: Wed, 18 Oct 2023 08:21:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 19:30:30.323854
Title: RGB-based Category-level Object Pose Estimation via Decoupled Metric Scale Recovery
Title（参考訳）: デカップリングメトリックスケールリカバリによるrgbに基づくカテゴリレベルのオブジェクトポーズ推定
Authors: Jiaxin Wei, Xibin Song, Weizhe Liu, Laurent Kneip, Hongdong Li and Pan Ji
Abstract要約: 本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
参考スコア（独自算出の注目度）: 72.13154206106259
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While showing promising results, recent RGB-D camera-based category-level object pose estimation methods have restricted applications due to the heavy reliance on depth sensors. RGB-only methods provide an alternative to this problem yet suffer from inherent scale ambiguity stemming from monocular observations. In this paper, we propose a novel pipeline that decouples the 6D pose and size estimation to mitigate the influence of imperfect scales on rigid transformations. Specifically, we leverage a pre-trained monocular estimator to extract local geometric information, mainly facilitating the search for inlier 2D-3D correspondence. Meanwhile, a separate branch is designed to directly recover the metric scale of the object based on category-level statistics. Finally, we advocate using the RANSAC-P$n$P algorithm to robustly solve for 6D object pose. Extensive experiments have been conducted on both synthetic and real datasets, demonstrating the superior performance of our method over previous state-of-the-art RGB-based approaches, especially in terms of rotation accuracy. Code: https://github.com/goldoak/DMSR.
Abstract（参考訳）: 近年のRGB-Dカメラを用いたカテゴリーレベルのオブジェクトポーズ推定法では,深度センサへの依存度が高いため,適用が制限されている。 rgbのみの手法は、この問題の代替を提供するが、単眼的な観察から生じる固有のスケールの曖昧さに苦しむ。本稿では,不完全スケールが剛体変換に与える影響を緩和するために,6次元ポーズとサイズ推定を分離する新しいパイプラインを提案する。具体的には,事前学習した単眼推定器を用いて局所幾何情報を抽出し,不規則な2d-3d対応の探索を容易にする。一方、別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。最後に,RANSAC-P$n$Pアルゴリズムを用いて6次元オブジェクトポーズを頑健に解くことを提案する。合成データと実データの両方で広範な実験が行われ、従来のrgbベースのアプローチ、特に回転精度の点でより優れた性能を示している。コード:https://github.com/goldoak/DMSR。

関連論文リスト

Unified Category-Level Object Detection and Pose Estimation from RGB Images using 3D Prototypes [5.224479258519442]
RGB画像の1つのフレームワークに検出とポーズ推定を統合する統一モデルを導入する。提案手法は,REAL275におけるRGBカテゴリレベルのポーズ推定における最先端結果を実現する。
論文参考訳（メタデータ） (2025-08-04T07:57:39Z)
CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image [86.75098349480014]
本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定に取り組む。そこで本研究では,Categorical Articulated Partsの6次元ポーズとサイズを推定するためのシングルステージネットワークCAP-Netを提案する。我々は,RGB画像と実センサからシミュレーションした深度雑音を特徴とするRGB-D調音データセットであるRGBD-Artデータセットを紹介した。
論文参考訳（メタデータ） (2025-04-15T14:30:26Z)
SEMPose: A Single End-to-end Network for Multi-object Pose Estimation [13.131534219937533]
SEMPoseは、エンドツーエンドの多目的ポーズ推定ネットワークである。 RGB画像以外の入力を必要とせずに32FPSで推論を行うことができる。複数のオブジェクトのポーズをリアルタイムで正確に推定でき、対象オブジェクトの数の影響を受けない推論時間に影響を及ぼす。
論文参考訳（メタデータ） (2024-11-21T10:37:54Z)
LaPose: Laplacian Mixture Shape Modeling for RGB-Based Category-Level Object Pose Estimation [43.549593231397644]
LaPoseは、オブジェクトの形状をPose推定のためのLaplacian混合モデルとしてモデル化する、新しいフレームワークである。各点を確率分布として表現することにより、形状の不確実性を明確に定量化する。 LaPoseは、カテゴリレベルのオブジェクトポーズ推定における最先端のパフォーマンスを得る。
論文参考訳（メタデータ） (2024-09-24T04:20:18Z)
Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文参考訳（メタデータ） (2024-06-26T16:01:10Z)
RDPN6D: Residual-based Dense Point-wise Network for 6Dof Object Pose Estimation Based on RGB-D Images [13.051302134031808]
単一のRGB-D画像を用いてオブジェクトの6DoFポーズを計算する新しい手法を提案する。オブジェクトのポーズを直接予測する既存の手法や、ポーズ回復のためのスパースキーポイントに依存する既存の手法とは異なり、我々のアプローチは密度の高い対応を使ってこの課題に対処する。
論文参考訳（メタデータ） (2024-05-14T10:10:45Z)
DVMNet++: Rethinking Relative Pose Estimation for Unseen Objects [59.51874686414509]
既存のアプローチでは、通常、接地構造オブジェクト境界ボックスと、多数の離散仮説を持つ近似3次元回転を用いて3次元翻訳を予測している。本稿では,1回のパスで相対オブジェクトのポーズを計算するDeep Voxel Matching Network (DVMNet++)を提案する。提案手法は,最先端手法と比較して計算コストの低い新しいオブジェクトに対して,より正確な相対的ポーズ推定を行う。
論文参考訳（メタデータ） (2024-03-20T15:41:32Z)
MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文参考訳（メタデータ） (2023-08-17T08:29:54Z)
ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文参考訳（メタデータ） (2022-03-17T16:16:24Z)
Single-stage Keypoint-based Category-level Object Pose Estimation from an RGB Image [27.234658117816103]
カテゴリレベルのオブジェクトポーズ推定のための,単一段階のキーポイントに基づくアプローチを提案する。提案ネットワークは2次元オブジェクト検出を行い、2次元キーポイントを検出し、6-DoFのポーズを推定し、相対的に有界な立方体次元を回帰する。我々は,3次元IoU測定値における最先端の手法よりも優れた,挑戦的なObjectronベンチマークに関する広範囲な実験を行った。
論文参考訳（メタデータ） (2021-09-13T17:55:00Z)
FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文参考訳（メタデータ） (2021-03-12T03:07:24Z)
Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文参考訳（メタデータ） (2021-01-05T17:18:52Z)
Robust 6D Object Pose Estimation by Learning RGB-D Features [59.580366107770764]
本稿では、この局所最適問題を解くために、回転回帰のための離散連続的な新しい定式化を提案する。我々はSO(3)の回転アンカーを均一にサンプリングし、各アンカーから目標への制約付き偏差を予測し、最適な予測を選択するための不確実性スコアを出力する。 LINEMOD と YCB-Video の2つのベンチマーク実験により,提案手法が最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2020-02-29T06:24:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。