論文の概要: High-resolution open-vocabulary object 6D pose estimation
- arxiv url: http://arxiv.org/abs/2406.16384v2
- Date: Thu, 11 Jul 2024 17:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 22:18:16.238841
- Title: High-resolution open-vocabulary object 6D pose estimation
- Title(参考訳): 高分解能開語彙オブジェクト6Dポーズ推定
- Authors: Jaime Corsetti, Davide Boscaini, Francesco Giuliari, Changjae Oh, Andrea Cavallaro, Fabio Poiesi,
- Abstract要約: Horyonはオープン語彙のVLMベースのアーキテクチャで、見えないオブジェクトの2つのシーン間の相対的なポーズ推定に対処する。
4つのデータセットにまたがるさまざまな未知のオブジェクトをベンチマークで評価する。
- 参考スコア(独自算出の注目度): 30.835921843505123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generalisation to unseen objects in the 6D pose estimation task is very challenging. While Vision-Language Models (VLMs) enable using natural language descriptions to support 6D pose estimation of unseen objects, these solutions underperform compared to model-based methods. In this work we present Horyon, an open-vocabulary VLM-based architecture that addresses relative pose estimation between two scenes of an unseen object, described by a textual prompt only. We use the textual prompt to identify the unseen object in the scenes and then obtain high-resolution multi-scale features. These features are used to extract cross-scene matches for registration. We evaluate our model on a benchmark with a large variety of unseen objects across four datasets, namely REAL275, Toyota-Light, Linemod, and YCB-Video. Our method achieves state-of-the-art performance on all datasets, outperforming by 12.6 in Average Recall the previous best-performing approach.
- Abstract(参考訳): 6次元ポーズ推定タスクにおける未確認オブジェクトの一般化は非常に困難である。
Vision-Language Models (VLM) は、自然言語による未確認オブジェクトの6次元ポーズ推定をサポートするが、これらのソリューションはモデルベースの手法に比べて性能が劣る。
本稿では,テキストプロンプトのみによって記述された,未確認物体の2つのシーン間の相対的なポーズ推定に対処する,オープンボキャブラリVLMベースのアーキテクチャであるHoryonを紹介する。
テキストプロンプトを用いて、シーン内の見えない物体を識別し、高解像度のマルチスケール特徴を得る。
これらの特徴は、登録のためのクロスシーンマッチを抽出するために使用される。
我々は,REAL275,Toyota-Light,Linemod,YCB-Videoの4つのデータセットにまたがるさまざまな未確認オブジェクトを用いたベンチマークで,我々のモデルを評価した。
提案手法は,全データセットの最先端性能を達成し,前回のベストパフォーマンスアプローチであるAverage Recallの12.6倍に向上する。
関連論文リスト
- OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - Open-vocabulary object 6D pose estimation [31.863333447303273]
対象物を特定するためにテキストプロンプトを使用するオープン語彙オブジェクト6Dのポーズ推定を新たに導入する。
そこで本研究では,視覚言語モデルを用いて関心対象をシーンから抽出する手法を提案する。
我々は、REAL275とToyota-Lightという2つの一般的なデータセットに基づいて、新しいベンチマークでアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-01T16:17:16Z) - ZS6D: Zero-shot 6D Object Pose Estimation using Vision Transformers [9.899633398596672]
ゼロショット新規オブジェクト6Dのポーズ推定にZS6Dを導入する。
事前訓練された視覚変換器(ViT)を用いて抽出された視覚ディスクリプタは、レンダリングテンプレートのマッチングに使用される。
LMO、YCBV、TLESSデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-09-21T11:53:01Z) - Hierarchical Graph Neural Networks for Proprioceptive 6D Pose Estimation
of In-hand Objects [1.8263882169310044]
マルチモーダル(ビジョンとタッチ)データを組み合わせた階層型グラフニューラルネットワークアーキテクチャを提案する。
また、グラフベースのオブジェクト表現を学習するために、モダリティ内および横断的に情報を流す階層的なメッセージパッシング操作を導入する。
論文 参考訳(メタデータ) (2023-06-28T01:18:53Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z) - CosyPose: Consistent multi-view multi-object 6D pose estimation [48.097599674329004]
単視点単体6次元ポーズ推定法を提案し、6次元オブジェクトのポーズ仮説を生成する。
第2に、異なる入力画像間で個々の6次元オブジェクトのポーズをマッチングするロバストな手法を開発する。
第3に、複数のオブジェクト仮説とそれらの対応性を考慮したグローバルなシーン改善手法を開発した。
論文 参考訳(メタデータ) (2020-08-19T14:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。