論文の概要: Open-vocabulary object 6D pose estimation
- arxiv url: http://arxiv.org/abs/2312.00690v3
- Date: Fri, 5 Apr 2024 14:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 18:45:22.315888
- Title: Open-vocabulary object 6D pose estimation
- Title(参考訳): 開語彙オブジェクト6Dポーズ推定
- Authors: Jaime Corsetti, Davide Boscaini, Changjae Oh, Andrea Cavallaro, Fabio Poiesi,
- Abstract要約: 対象物を特定するためにテキストプロンプトを使用するオープン語彙オブジェクト6Dのポーズ推定を新たに導入する。
そこで本研究では,視覚言語モデルを用いて関心対象をシーンから抽出する手法を提案する。
我々は、REAL275とToyota-Lightという2つの一般的なデータセットに基づいて、新しいベンチマークでアプローチを検証する。
- 参考スコア(独自算出の注目度): 31.863333447303273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the new setting of open-vocabulary object 6D pose estimation, in which a textual prompt is used to specify the object of interest. In contrast to existing approaches, in our setting (i) the object of interest is specified solely through the textual prompt, (ii) no object model (e.g., CAD or video sequence) is required at inference, and (iii) the object is imaged from two RGBD viewpoints of different scenes. To operate in this setting, we introduce a novel approach that leverages a Vision-Language Model to segment the object of interest from the scenes and to estimate its relative 6D pose. The key of our approach is a carefully devised strategy to fuse object-level information provided by the prompt with local image features, resulting in a feature space that can generalize to novel concepts. We validate our approach on a new benchmark based on two popular datasets, REAL275 and Toyota-Light, which collectively encompass 34 object instances appearing in four thousand image pairs. The results demonstrate that our approach outperforms both a well-established hand-crafted method and a recent deep learning-based baseline in estimating the relative 6D pose of objects in different scenes. Code and dataset are available at https://jcorsetti.github.io/oryon.
- Abstract(参考訳): 対象物を特定するためにテキストプロンプトを使用するオープン語彙オブジェクト6Dのポーズ推定を新たに導入する。
既存のアプローチとは対照的に、私たちの設定では
(i)利害対象は、テキストプロンプトのみで指定する。
(ii)推論にはオブジェクトモデル(例、CAD、ビデオシーケンス)は不要で、
(iii)異なるシーンの2つのRGBD視点から、オブジェクトを画像化する。
そこで本研究では,視覚言語モデルを用いてシーンから関心対象を抽出し,その相対的な6次元ポーズを推定する手法を提案する。
提案手法の鍵となるのは,プロンプトによって提供されるオブジェクトレベルの情報を局所的な画像特徴と融合させることで,新しい概念に一般化できる特徴空間を実現することである。
我々は,2つの一般的なデータセットであるREAL275とToyota-Lightに基づく新しいベンチマークに対するアプローチを検証する。
その結果,本手法は,物体の相対的な6次元ポーズを異なる場面で推定する上で,手作り手法と最近のディープラーニングベースラインの両方に優れることがわかった。
コードとデータセットはhttps://jcorsetti.github.io/oryon.comで入手できる。
関連論文リスト
- Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。
本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文 参考訳(メタデータ) (2024-11-24T14:31:50Z) - High-resolution open-vocabulary object 6D pose estimation [30.835921843505123]
Horyonはオープン語彙のVLMベースのアーキテクチャで、見えないオブジェクトの2つのシーン間の相対的なポーズ推定に対処する。
4つのデータセットにまたがるさまざまな未知のオブジェクトをベンチマークで評価する。
論文 参考訳(メタデータ) (2024-06-24T07:53:46Z) - OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z) - Weakly Supervised Learning of Keypoints for 6D Object Pose Estimation [73.40404343241782]
2次元キーポイント検出に基づく弱教師付き6次元オブジェクトポーズ推定手法を提案する。
提案手法は,最先端の完全教師付きアプローチと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-03-07T16:23:47Z) - Precise Object Placement with Pose Distance Estimations for Different
Objects and Grippers [7.883179102580462]
提案手法では,複数の6次元オブジェクトのポーズをオブジェクトクラスとともに推定し,オブジェクトのポーズ推定のためのポーズ距離,オブジェクト配置のためのターゲットからのポーズ距離を推定する。
モデル知識をシステムに組み込むことにより、我々の手法は最先端のモデルフリーアプローチよりも、把握に成功率が高い。
論文 参考訳(メタデータ) (2021-10-03T12:18:59Z) - Novel Object Viewpoint Estimation through Reconstruction Alignment [45.16865218423492]
我々は、新しい対象の視点を推定するために再構成と整合性アプローチを学ぶ。
具体的には、2つのネットワークを学習することを提案する。最初の1つは3次元幾何学的特徴ボトルネックに画像をマッピングし、画像から画像への変換損失を学習する。
テスト時に、我々のモデルは、テスト画像のボトルネック特徴と参照画像とを最もよく一致させる相対変換を見つけます。
論文 参考訳(メタデータ) (2020-06-05T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。