論文の概要: MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose
and Size Estimation
- arxiv url: http://arxiv.org/abs/2308.08856v2
- Date: Sat, 21 Oct 2023 13:09:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 07:50:19.279336
- Title: MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose
and Size Estimation
- Title(参考訳): MV-ROPE:ロバストカテゴリーレベルのオブジェクトマップとサイズ推定のためのマルチビュー制約
- Authors: Jiaqi Yang, Yucong Chen, Xiangting Meng, Chenxin Yan, Min Li, Ran
Cheng, Lige Liu, Tao Sun, Laurent Kneip
- Abstract要約: RGBに基づくカテゴリレベルの6Dオブジェクトのポーズとサイズ推定のための新しいフレームワークを提案する。
私たちの斬新さは、現実的なシナリオで一般的に利用できる多視点情報を活用することにあります。
実験の結果,提案手法は最先端のRGB-D手法に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 24.50318984800755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel framework for RGB-based category-level 6D object pose and
size estimation. Our approach relies on the prediction of normalized object
coordinate space (NOCS), which serves as an efficient and effective object
canonical representation that can be extracted from RGB images. Unlike previous
approaches that heavily relied on additional depth readings as input, our
novelty lies in leveraging multi-view information, which is commonly available
in practical scenarios where a moving camera continuously observes the
environment. By introducing multi-view constraints, we can obtain accurate
camera pose and depth estimation from a monocular dense SLAM framework.
Additionally, by incorporating constraints on the camera relative pose, we can
apply trimming strategies and robust pose averaging on the multi-view object
poses, resulting in more accurate and robust estimations of category-level
object poses even in the absence of direct depth readings. Furthermore, we
introduce a novel NOCS prediction network that significantly improves
performance. Our experimental results demonstrate the strong performance of our
proposed method, even comparable to state-of-the-art RGB-D methods across
public dataset sequences. Additionally, we showcase the generalization ability
of our method by evaluating it on self-collected datasets.
- Abstract(参考訳): RGBに基づくカテゴリレベルの6Dオブジェクトポーズとサイズ推定のための新しいフレームワークを提案する。
我々のアプローチは、RGB画像から抽出できる効率的で効果的なオブジェクト標準表現として機能する正規化オブジェクト座標空間(NOCS)の予測に依存する。
入力として追加の深度読影に大きく依存する従来のアプローチとは異なり、我々の斬新さは、移動カメラが環境を継続的に観察する現実的なシナリオでよく見られるマルチビュー情報を活用することである。
マルチビュー制約を導入することで,単眼高密度slamフレームワークから正確なカメラポーズと深度推定を実現することができる。
さらに、カメラの相対的なポーズに制約を組み込むことで、マルチビューオブジェクトのポーズに対してトリミング戦略とロバストポーズを適用でき、直接深度読影がなくてもカテゴリレベルのポーズをより正確かつ堅牢に推定することができる。
さらに,性能を大幅に向上させるnocs予測ネットワークを提案する。
実験の結果,提案手法の性能は,公開データセット列にまたがる最先端のRGB-D手法と同等であった。
さらに,自己収集データセット上で評価することで,本手法の一般化能力を示す。
関連論文リスト
- RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - MonoIndoor++:Towards Better Practice of Self-Supervised Monocular Depth
Estimation for Indoor Environments [45.89629401768049]
自己監督型単分子深度推定は近年,特に屋外環境において顕著な進歩を遂げている。
しかし、既存のデータの大半を携帯端末で捉えている屋内シーンでは、深度予測結果は満足できない。
室内環境における自己教師型単眼深度推定の性能向上を目的とした,新しいフレームワーク-IndoorMono++を提案する。
論文 参考訳(メタデータ) (2022-07-18T21:34:43Z) - Keypoint-Based Category-Level Object Pose Tracking from an RGB Sequence
with Uncertainty Estimation [29.06824085794294]
本稿では,既知のカテゴリ内のオブジェクトのインスタンスを同時に検出・追跡するカテゴリレベルの6-DoFポーズ推定アルゴリズムを提案する。
提案手法は, モノクロビデオRGBのフレームと現在のフレームと, 前フレームからの予測を入力として, 境界立方体とポーズの予測を行う。
本フレームワークは, 従来の不確実性を考慮し, その結果, 単一フレーム法よりも高精度な予測が可能となった。
論文 参考訳(メタデータ) (2022-05-23T05:20:22Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Next-Best-View Prediction for Active Stereo Cameras and Highly
Reflective Objects [12.21992378133376]
反射物体の深度データを完成させるためのカメラ視点を戦略的に選択する次世代ビューフレームワークを提案する。
我々は既存のデータから現在のポーズ予測を得るためにRGBベースのポーズ推定器を用いる。
我々の能動深度取得法は,2つの強いベースラインを上回り,深度完成度とオブジェクトポーズ推定性能を両立させる。
論文 参考訳(メタデータ) (2022-02-27T01:48:02Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。