論文の概要: Object Pose Estimation using Mid-level Visual Representations
- arxiv url: http://arxiv.org/abs/2203.01449v1
- Date: Wed, 2 Mar 2022 22:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-05 10:07:58.515602
- Title: Object Pose Estimation using Mid-level Visual Representations
- Title(参考訳): 中レベル視覚表現を用いたオブジェクトポス推定
- Authors: Negar Nejatishahidin, Pooya Fayyazsanavi, Jana Kosecka
- Abstract要約: 本研究は,これまで見つからなかった環境に効果的に移動可能なオブジェクトカテゴリのポーズ推定モデルを提案する。
ポーズ推定のための深層畳み込みネットワークモデル(CNN)は、通常、オブジェクト検出、ポーズ推定、または3D再構成のために算出されたデータセットに基づいて訓練され評価される。
一般化と新しい環境への移動に関しては,この手法が好ましいことを示す。
- 参考スコア(独自算出の注目度): 5.220940151628735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes a novel pose estimation model for object categories that
can be effectively transferred to previously unseen environments. The deep
convolutional network models (CNN) for pose estimation are typically trained
and evaluated on datasets specifically curated for object detection, pose
estimation, or 3D reconstruction, which requires large amounts of training
data. In this work, we propose a model for pose estimation that can be trained
with small amount of data and is built on the top of generic mid-level
representations \cite{taskonomy2018} (e.g. surface normal estimation and
re-shading). These representations are trained on a large dataset without
requiring pose and object annotations. Later on, the predictions are refined
with a small CNN neural network that exploits object masks and silhouette
retrieval. The presented approach achieves superior performance on the Pix3D
dataset \cite{pix3d} and shows nearly 35\% improvement over the existing models
when only 25\% of the training data is available. We show that the approach is
favorable when it comes to generalization and transfer to novel environments.
Towards this end, we introduce a new pose estimation benchmark for commonly
encountered furniture categories on challenging Active Vision Dataset
\cite{Ammirato2017ADF} and evaluated the models trained on the Pix3D dataset.
- Abstract(参考訳): 本研究は,これまで見つからなかった環境に効果的に移動可能なオブジェクトカテゴリのポーズ推定モデルを提案する。
ポーズ推定のための深層畳み込みネットワークモデル(CNN)は通常、大量のトレーニングデータを必要とするオブジェクト検出、ポーズ推定、あるいは3D再構成のために特別に計算されたデータセットに基づいて訓練され評価される。
本研究では、少量のデータで訓練できるポーズ推定モデルを提案し、一般的な中間レベル表現である「cite{taskonomy2018}」(表面正規推定や再シェーディングなど)の上に構築する。
これらの表現は、ポーズやオブジェクトアノテーションを必要とせずに、大きなデータセットでトレーニングされる。
その後、予測は、オブジェクトマスクとシルエット検索を利用する小さなcnnニューラルネットワークによって洗練される。
提案手法はPix3Dデータセット \cite{pix3d} 上での優れたパフォーマンスを実現し、トレーニングデータの25%しか利用できない場合、既存のモデルよりも35倍近く改善されている。
一般化と新しい環境への移動に関しては,この手法が好ましいことを示す。
この目的のために,Active Vision Dataset \cite{Ammirato2017ADF} に挑戦する一般的な家具カテゴリーのポーズ推定ベンチマークを導入し,Pix3Dデータセットでトレーニングされたモデルを評価する。
関連論文リスト
- OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - GS-Pose: Category-Level Object Pose Estimation via Geometric and
Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。
本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。
これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文 参考訳(メタデータ) (2023-11-23T02:35:38Z) - MFOS: Model-Free & One-Shot Object Pose Estimation [10.009454818723025]
最小限の入力が与えられた場合、トレーニング中に見たことのないオブジェクトのポーズを1つのフォワードで推定できる新しいアプローチを導入する。
我々は、LINEMODベンチマークで広範な実験を行い、最先端のワンショット性能を報告した。
論文 参考訳(メタデータ) (2023-10-03T09:12:07Z) - NOPE: Novel Object Pose Estimation from a Single Image [67.11073133072527]
本稿では,新しいオブジェクトの1つのイメージを入力として取り込んで,オブジェクトの3Dモデルに関する事前知識を必要とせずに,新しいイメージにおけるオブジェクトの相対的なポーズを予測するアプローチを提案する。
我々は、オブジェクトを取り巻く視点に対する識別的埋め込みを直接予測するモデルを訓練することで、これを実現する。
この予測は単純なU-Netアーキテクチャを用いて行われ、要求されたポーズに注意を向け、条件を定め、非常に高速な推論をもたらす。
論文 参考訳(メタデータ) (2023-03-23T18:55:43Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Zero-Shot Category-Level Object Pose Estimation [24.822189326540105]
ゼロショット方式で新しい対象カテゴリーのポーズを推定する問題に取り組む。
これは、ポーズラベル付きデータセットやカテゴリ固有のCADモデルの必要性を取り除くことで、既存の文献の多くを拡張します。
本手法は平均回転精度を30度で6倍改善する。
論文 参考訳(メタデータ) (2022-04-07T17:58:39Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Towards General Purpose Geometry-Preserving Single-View Depth Estimation [1.9573380763700712]
単視点深度推定(SVDE)は、ARアプリケーション、3Dモデリング、ロボット工学におけるシーン理解において重要な役割を果たす。
近年の研究では、成功するソリューションはトレーニングデータの多様性とボリュームに強く依存していることが示されている。
我々の研究は、従来のデータセットとともに、このデータに基づいてトレーニングされたモデルが、正確なシーン形状を予測しながら精度を向上できることを示している。
論文 参考訳(メタデータ) (2020-09-25T20:06:13Z) - Shape Prior Deformation for Categorical 6D Object Pose and Size
Estimation [62.618227434286]
RGB-D画像から見えないオブジェクトの6Dポーズとサイズを復元する新しい学習手法を提案する。
本研究では,事前学習したカテゴリ形状からの変形を明示的にモデル化することにより,3次元オブジェクトモデルを再構築するディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-16T16:45:05Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。