論文の概要: Optimal and Robust Category-level Perception: Object Pose and Shape
Estimation from 2D and 3D Semantic Keypoints
- arxiv url: http://arxiv.org/abs/2206.12498v2
- Date: Mon, 15 May 2023 03:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 01:11:00.641881
- Title: Optimal and Robust Category-level Perception: Object Pose and Shape
Estimation from 2D and 3D Semantic Keypoints
- Title(参考訳): 最適かつロバストなカテゴリーレベル知覚:2次元および3次元意味的キーポイントによる物体のポーズと形状推定
- Authors: Jingnan Shi, Heng Yang, Luca Carlone
- Abstract要約: 与えられたカテゴリ(例えば車)のオブジェクトを撮影する2Dまたは3Dセンサデータを取得し、オブジェクトの3Dポーズと形状を再構築する必要がある問題を考える。
最初の貢献は PACE3D* と PACE2D* を開発することである。
2つ目のコントリビューションは、PACE3D#とPACE2D#という名前の、両方のソルバの開発バージョンです。
- 参考スコア(独自算出の注目度): 30.19476775410544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a category-level perception problem, where one is given 2D or 3D
sensor data picturing an object of a given category (e.g., a car), and has to
reconstruct the 3D pose and shape of the object despite intra-class variability
(i.e., different car models have different shapes). We consider an active shape
model, where -- for an object category -- we are given a library of potential
CAD models describing objects in that category, and we adopt a standard
formulation where pose and shape are estimated from 2D or 3D keypoints via
non-convex optimization. Our first contribution is to develop PACE3D* and
PACE2D*, the first certifiably optimal solvers for pose and shape estimation
using 3D and 2D keypoints, respectively. Both solvers rely on the design of
tight (i.e., exact) semidefinite relaxations. Our second contribution is to
develop outlier-robust versions of both solvers, named PACE3D# and PACE2D#.
Towards this goal, we propose ROBIN, a general graph-theoretic framework to
prune outliers, which uses compatibility hypergraphs to model measurements'
compatibility. We show that in category-level perception problems these
hypergraphs can be built from the winding orders of the keypoints (in 2D) or
their convex hulls (in 3D), and many outliers can be filtered out via maximum
hyperclique computation. The last contribution is an extensive experimental
evaluation. Besides providing an ablation study on simulated datasets and on
the PASCAL3D+ dataset, we combine our solver with a deep keypoint detector, and
show that PACE3D# improves over the state of the art in vehicle pose estimation
in the ApolloScape datasets, and its runtime is compatible with practical
applications. We release our code at https://github.com/MIT-SPARK/PACE.
- Abstract(参考訳): カテゴリーレベルの知覚問題を考えると、与えられたカテゴリーのオブジェクト(例えば車)を2dまたは3dのセンサーデータで認識し、クラス内の変化にかかわらずオブジェクトの3dポーズと形状を再構築する必要がある(例えば、異なるカーモデルが異なる形状を持つ)。
我々は、オブジェクトカテゴリに対して、そのカテゴリ内のオブジェクトを記述する潜在的CADモデルのライブラリが与えられ、非凸最適化により2Dまたは3Dキーポイントからポーズと形状を推定する標準定式化を採用する。
PACE3D* と PACE2D* は,それぞれ 3D と 2D のキーポイントを用いたポーズと形状推定に最適である。
どちらの解法も厳密な(正確には)半定緩和の設計に依存している。
2つめのコントリビューションは、PACE3D#とPACE2D#という名前の、両方のソルバのアウトリアロバストバージョンを開発することです。
この目標に向けて、我々は、測定値の互換性をモデル化するために互換性ハイパーグラフを使用するprune outliersのための一般的なグラフ理論フレームワークであるrobinを提案する。
カテゴリレベルの知覚問題では、これらのハイパーグラフはキーポイント(2次元)または凸殻(3次元)の巻線順序から構築でき、多くのアウトレーヤは最大超斜め計算によってフィルタリング可能である。
最後の貢献は広範な実験的評価である。
シミュレーションデータセットとPASCAL3D+データセットのアブレーションスタディを提供するのに加えて、当社のソルバとディープキーポイント検出器を組み合わせることで、PACE3D#がApolloScapeデータセットにおける車両のポーズ推定における技術状況を改善し、そのランタイムが実用的なアプリケーションと互換性があることを示します。
コードをhttps://github.com/MIT-SPARK/PACEでリリースします。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Uncertainty-aware 3D Object-Level Mapping with Deep Shape Priors [15.34487368683311]
未知のオブジェクトに対して高品質なオブジェクトレベルマップを再構築するフレームワークを提案する。
提案手法では,複数のRGB-D画像を入力として,高密度な3次元形状と検出対象に対する9-DoFポーズを出力する。
2つの新たな損失関数を通して形状を伝播し不確実性を生じさせる確率的定式化を導出する。
論文 参考訳(メタデータ) (2023-09-17T00:48:19Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - SNAKE: Shape-aware Neural 3D Keypoint Field [62.91169625183118]
形状復元には点雲から3Dキーポイントを検出することが重要である。
形状再構成は3次元キーポイント検出に有効か?
本稿では,形状認識型ニューラル3Dキーポイントフィールドに短いSNAKEという,教師なしの新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-03T17:58:43Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Optimal Pose and Shape Estimation for Category-level 3D Object
Perception [24.232254155643574]
カテゴリーレベルの知覚問題で、与えられたカテゴリのオブジェクトを撮影する3Dセンサーデータが与えられる。
ポーズと形状推定のための第1の最適CADソルバを提供する。
また, カテゴリレベルの知覚において, アウトレーヤを起点とするグラフ理論の定式化も行った。
論文 参考訳(メタデータ) (2021-04-16T21:41:29Z) - HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation [7.559220068352681]
本稿では,2次元と3次元で手とオブジェクトのポーズをリアルタイムに推定するHOPE-Netという軽量モデルを提案する。
我々のネットワークは2つの適応グラフ畳み込みニューラルネットワークのカスケードを用いており、1つは手関節と物体角の2D座標を推定し、もう1つは2D座標を3Dに変換する。
論文 参考訳(メタデータ) (2020-03-31T19:01:42Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。