論文の概要: MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose
and Size Estimation
- arxiv url: http://arxiv.org/abs/2308.08856v1
- Date: Thu, 17 Aug 2023 08:29:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 17:27:18.717256
- Title: MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose
and Size Estimation
- Title(参考訳): MV-ROPE:ロバストカテゴリーレベルのオブジェクトマップとサイズ推定のためのマルチビュー制約
- Authors: Jiaqi Yang, Yucong Chen, Xiangting Meng, Chenxin Yan, Min Li, Ran
Chen, Lige Liu, Tao Sun, Laurent Kneip
- Abstract要約: RGBに基づくカテゴリレベルの6Dオブジェクトのポーズとサイズ推定のための新しいフレームワークを提案する。
私たちの斬新さは、現実的なシナリオで一般的に利用できる多視点情報を活用することにあります。
実験の結果,提案手法は最先端のRGB-D手法に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 20.438537159621212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel framework for RGB-based category-level 6D object pose and
size estimation. Our approach relies on the prediction of normalized object
coordinate space (NOCS), which serves as an efficient and effective object
canonical representation that can be extracted from RGB images. Unlike previous
approaches that heavily relied on additional depth readings as input, our
novelty lies in leveraging multi-view information, which is commonly available
in practical scenarios where a moving camera continuously observes the
environment. By introducing multi-view constraints, we can obtain accurate
camera pose and depth estimation from a monocular dense SLAM framework.
Additionally, by incorporating constraints on the camera relative pose, we can
apply trimming strategies and robust pose averaging on the multi-view object
poses, resulting in more accurate and robust estimations of category-level
object poses even in the absence of direct depth readings. Furthermore, we
introduce a novel NOCS prediction network that significantly improves
performance. Our experimental results demonstrate the strong performance of our
proposed method, even comparable to state-of-the-art RGB-D methods across
public dataset sequences. Additionally, we showcase the generalization ability
of our method by evaluating it on self-collected datasets.
- Abstract(参考訳): RGBに基づくカテゴリレベルの6Dオブジェクトポーズとサイズ推定のための新しいフレームワークを提案する。
我々のアプローチは、RGB画像から抽出できる効率的で効果的なオブジェクト標準表現として機能する正規化オブジェクト座標空間(NOCS)の予測に依存する。
入力として追加の深度読影に大きく依存する従来のアプローチとは異なり、我々の斬新さは、移動カメラが環境を継続的に観察する現実的なシナリオでよく見られるマルチビュー情報を活用することである。
マルチビュー制約を導入することで,単眼高密度slamフレームワークから正確なカメラポーズと深度推定を実現することができる。
さらに、カメラの相対的なポーズに制約を組み込むことで、マルチビューオブジェクトのポーズに対してトリミング戦略とロバストポーズを適用でき、直接深度読影がなくてもカテゴリレベルのポーズをより正確かつ堅牢に推定することができる。
さらに,性能を大幅に向上させるnocs予測ネットワークを提案する。
実験の結果,提案手法の性能は,公開データセット列にまたがる最先端のRGB-D手法と同等であった。
さらに,自己収集データセット上で評価することで,本手法の一般化能力を示す。
関連論文リスト
- DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - Diff-DOPE: Differentiable Deep Object Pose Estimation [29.703385848843414]
Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。
この方法は、画像とモデルの投影の間の視覚的エラーを最小限に抑えるために、オブジェクトのポーズを更新するために微分可能なレンダリングを使用する。
このシンプルで効果的なアイデアは、ポーズ推定データセットで最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2023-09-30T18:52:57Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - PhoCaL: A Multi-Modal Dataset for Category-Level Object Pose Estimation
with Photometrically Challenging Objects [45.31344700263873]
我々は、PhoCaLと呼ばれる光度に挑戦するオブジェクトを用いたカテゴリレベルのオブジェクトポーズ推定のためのマルチモーダルデータセットを提案する。
PhoCaLは、高い反射率、透明度、対称度を含む8種類以上の家庭用品の60種類の高品質な3Dモデルで構成されている。
これにより、不透明で光沢のある透明な物体のポーズのサブミリ秒精度が保証され、動きのぼやけも無く、カメラの同期も完璧になる。
論文 参考訳(メタデータ) (2022-05-18T09:21:09Z) - ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose
Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。
また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:24Z) - Next-Best-View Prediction for Active Stereo Cameras and Highly
Reflective Objects [12.21992378133376]
反射物体の深度データを完成させるためのカメラ視点を戦略的に選択する次世代ビューフレームワークを提案する。
我々は既存のデータから現在のポーズ予測を得るためにRGBベースのポーズ推定器を用いる。
我々の能動深度取得法は,2つの強いベースラインを上回り,深度完成度とオブジェクトポーズ推定性能を両立させる。
論文 参考訳(メタデータ) (2022-02-27T01:48:02Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。