論文の概要: Category-Level Metric Scale Object Shape and Pose Estimation
- arxiv url: http://arxiv.org/abs/2109.00326v1
- Date: Wed, 1 Sep 2021 12:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 14:13:19.639836
- Title: Category-Level Metric Scale Object Shape and Pose Estimation
- Title(参考訳): カテゴリーレベルのメートル法物体形状とポーズ推定
- Authors: Taeyeop Lee, Byeong-Uk Lee, Myungchul Kim, In So Kweon
- Abstract要約: 本稿では,測度スケールの形状と1枚のRGB画像からのポーズを共同で推定するフレームワークを提案する。
カテゴリーレベルのオブジェクトのポーズと形状を評価するために,合成と実世界の両方のデータセット上で本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 73.92460712829188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in deep learning recognition have led to accurate object detection
with 2D images. However, these 2D perception methods are insufficient for
complete 3D world information. Concurrently, advanced 3D shape estimation
approaches focus on the shape itself, without considering metric scale. These
methods cannot determine the accurate location and orientation of objects. To
tackle this problem, we propose a framework that jointly estimates a metric
scale shape and pose from a single RGB image. Our framework has two branches:
the Metric Scale Object Shape branch (MSOS) and the Normalized Object
Coordinate Space branch (NOCS). The MSOS branch estimates the metric scale
shape observed in the camera coordinates. The NOCS branch predicts the
normalized object coordinate space (NOCS) map and performs similarity
transformation with the rendered depth map from a predicted metric scale mesh
to obtain 6d pose and size. Additionally, we introduce the Normalized Object
Center Estimation (NOCE) to estimate the geometrically aligned distance from
the camera to the object center. We validated our method on both synthetic and
real-world datasets to evaluate category-level object pose and shape.
- Abstract(参考訳): ディープラーニング認識の進歩は、2D画像による正確な物体検出に繋がった。
しかし、これらの2次元認識方法は完全な3次元世界情報には不十分である。
同時に、先進的な3次元形状推定手法は、メートル法スケールを考慮せずに形状自体に焦点をあてる。
これらの方法は、オブジェクトの正確な位置と向きを決定することはできない。
この問題に対処するために,1枚のRGB画像から距離スケール形状とポーズを共同で推定するフレームワークを提案する。
我々のフレームワークには、Metric Scale Object Shape Branch(MSOS)とNocalized Object Coordinate Space Branch(NOCS)の2つのブランチがあります。
msosブランチは、カメラ座標で観測されるメトリックスケール形状を推定する。
NOCSブランチは、正規化されたオブジェクト座標空間(NOCS)マップを予測し、予測されたメトリックスケールメッシュからの描画深度マップと類似性変換を行い、6dポーズとサイズを得る。
さらに,カメラから物体中心までの距離を推定するために,正規化物体中心推定(noce)を導入する。
本手法を合成データと実世界データの両方で検証し, カテゴリーレベルのオブジェクトのポーズと形状を評価した。
関連論文リスト
- RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - TerrainMesh: Metric-Semantic Terrain Reconstruction from Aerial Images
Using Joint 2D-3D Learning [20.81202315793742]
本稿では,視覚的オドメトリーアルゴリズムによって保持される各カメラにおける局所的メートル法-セマンティックメッシュを再構築する2次元3次元学習手法を提案する。
メッシュはグローバル環境モデルに組み立てて、オンライン操作中の地形のトポロジとセマンティクスをキャプチャすることができる。
論文 参考訳(メタデータ) (2022-04-23T05:18:39Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z) - Metric-Scale Truncation-Robust Heatmaps for 3D Human Pose Estimation [16.463390330757132]
被検体近傍の計量3次元空間で次元が定義される計量スケールトランケーション・ローバスト体積熱マップを提案する。
我々は、モノラルなRGBからその熱マップをエンドツーエンドに推定するために、完全な畳み込みネットワークを訓練する。
提案手法は単純かつ高速であるため,リアルタイムなトップダウンマルチパーソンポーズ推定システムにおいて有用なコンポーネントとなる。
論文 参考訳(メタデータ) (2020-03-05T22:38:13Z) - L6DNet: Light 6 DoF Network for Robust and Precise Object Pose
Estimation with Small Datasets [0.0]
1枚のRGB-D画像から6つのDoFオブジェクトのポーズ推定を行う新しい手法を提案する。
データ駆動と幾何学という2段階のハイブリッドパイプラインを採用しています。
私たちのアプローチは最先端の手法よりも堅牢で正確です。
論文 参考訳(メタデータ) (2020-02-03T17:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。