論文の概要: OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation
- arxiv url: http://arxiv.org/abs/2403.12396v1
- Date: Tue, 19 Mar 2024 03:09:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:31:57.914565
- Title: OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation
- Title(参考訳): OV9D:Open-Vocabulary Category-Level 9D Object Poseとサイズ推定
- Authors: Junhao Cai, Yisheng He, Weihao Yuan, Siyu Zhu, Zilong Dong, Liefeng Bo, Qifeng Chen,
- Abstract要約: 本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
- 参考スコア(独自算出の注目度): 56.028185293563325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies a new open-set problem, the open-vocabulary category-level object pose and size estimation. Given human text descriptions of arbitrary novel object categories, the robot agent seeks to predict the position, orientation, and size of the target object in the observed scene image. To enable such generalizability, we first introduce OO3D-9D, a large-scale photorealistic dataset for this task. Derived from OmniObject3D, OO3D-9D is the largest and most diverse dataset in the field of category-level object pose and size estimation. It includes additional annotations for the symmetry axis of each category, which help resolve symmetric ambiguity. Apart from the large-scale dataset, we find another key to enabling such generalizability is leveraging the strong prior knowledge in pre-trained visual-language foundation models. We then propose a framework built on pre-trained DinoV2 and text-to-image stable diffusion models to infer the normalized object coordinate space (NOCS) maps of the target instances. This framework fully leverages the visual semantic prior from DinoV2 and the aligned visual and language knowledge within the text-to-image diffusion model, which enables generalization to various text descriptions of novel categories. Comprehensive quantitative and qualitative experiments demonstrate that the proposed open-vocabulary method, trained on our large-scale synthesized data, significantly outperforms the baseline and can effectively generalize to real-world images of unseen categories. The project page is at https://ov9d.github.io.
- Abstract(参考訳): 本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
ロボットエージェントは、任意の新規対象カテゴリの人間のテキスト記述を考慮し、観察されたシーン画像における対象対象の位置、向き、サイズを予測する。
このような一般化を可能にするために,我々はまずOO3D-9Dという大規模フォトリアリスティックデータセットを導入する。
OmniObject3Dから派生したOO3D-9Dは、カテゴリレベルのオブジェクトのポーズとサイズ推定の分野で、最大かつ最も多様なデータセットである。
各カテゴリの対称性軸に対する追加アノテーションが含まれており、対称性の曖昧さを解決するのに役立つ。
大規模なデータセットとは別に、そのような一般化を可能にするための別の鍵は、事前学習された視覚言語基盤モデルにおける強力な事前知識を活用することである。
次に, 対象インスタンスの正規化オブジェクト座標空間 (NOCS) を推定するために, 事前学習した DinoV2 とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
このフレームワークは、DinoV2に先行する視覚的意味論と、テキストと画像の拡散モデルにおける協調的な視覚的および言語的知識をフル活用し、新しいカテゴリの様々なテキスト記述への一般化を可能にする。
大規模合成データに基づいて学習したオープンボキャブラリ法がベースラインを著しく上回り,目に見えないカテゴリの実際の画像に効果的に一般化できることを,包括的定量的・定性的な実験により実証した。
プロジェクトページはhttps://ov9d.github.io.comにある。
関連論文リスト
- GS-Pose: Category-Level Object Pose Estimation via Geometric and
Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。
本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。
これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文 参考訳(メタデータ) (2023-11-23T02:35:38Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - Category-Agnostic 6D Pose Estimation with Conditional Neural Processes [19.387280883044482]
未知物体の6次元ポーズ推定のためのメタラーニング手法を提案する。
本アルゴリズムは,オブジェクトの表現をカテゴリに依存しない方法で学習し,オブジェクトカテゴリをまたいだ強力な一般化機能を実現する。
論文 参考訳(メタデータ) (2022-06-14T20:46:09Z) - Object Pose Estimation using Mid-level Visual Representations [5.220940151628735]
本研究は,これまで見つからなかった環境に効果的に移動可能なオブジェクトカテゴリのポーズ推定モデルを提案する。
ポーズ推定のための深層畳み込みネットワークモデル(CNN)は、通常、オブジェクト検出、ポーズ推定、または3D再構成のために算出されたデータセットに基づいて訓練され評価される。
一般化と新しい環境への移動に関しては,この手法が好ましいことを示す。
論文 参考訳(メタデータ) (2022-03-02T22:49:17Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z) - Shape Prior Deformation for Categorical 6D Object Pose and Size
Estimation [62.618227434286]
RGB-D画像から見えないオブジェクトの6Dポーズとサイズを復元する新しい学習手法を提案する。
本研究では,事前学習したカテゴリ形状からの変形を明示的にモデル化することにより,3次元オブジェクトモデルを再構築するディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-16T16:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。