論文の概要: SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2311.15707v2
- Date: Wed, 6 Mar 2024 12:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 20:39:59.599463
- Title: SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation
- Title(参考訳): sam-6d: segment anythingモデルによるゼロショット6dオブジェクトポーズ推定
- Authors: Jiehong Lin and Lihua Liu and Dekun Lu and Kui Jia
- Abstract要約: SAM-6Dは,インスタンス分割とポーズ推定を含む2つのステップでタスクを実現するように設計された新しいフレームワークである。
SAM-6Dは、対象オブジェクトが与えられた場合、インスタンスモデル(ISM)とポス推定モデル(PEM)の2つの専用サブネットワークを使用する。
ISMはSAMを先進的な出発点として、すべての可能なオブジェクトの提案を生成し、有効なものを選択的に保存する。
PEMは、背景トークンの新しい設計を特徴とする2段階の点マッチングプロセスを実行し、密集した3D-3D対応を構築する。
- 参考スコア(独自算出の注目度): 45.951483980557825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot 6D object pose estimation involves the detection of novel objects
with their 6D poses in cluttered scenes, presenting significant challenges for
model generalizability. Fortunately, the recent Segment Anything Model (SAM)
has showcased remarkable zero-shot transfer performance, which provides a
promising solution to tackle this task. Motivated by this, we introduce SAM-6D,
a novel framework designed to realize the task through two steps, including
instance segmentation and pose estimation. Given the target objects, SAM-6D
employs two dedicated sub-networks, namely Instance Segmentation Model (ISM)
and Pose Estimation Model (PEM), to perform these steps on cluttered RGB-D
images. ISM takes SAM as an advanced starting point to generate all possible
object proposals and selectively preserves valid ones through meticulously
crafted object matching scores in terms of semantics, appearance and geometry.
By treating pose estimation as a partial-to-partial point matching problem, PEM
performs a two-stage point matching process featuring a novel design of
background tokens to construct dense 3D-3D correspondence, ultimately yielding
the pose estimates. Without bells and whistles, SAM-6D outperforms the existing
methods on the seven core datasets of the BOP Benchmark for both instance
segmentation and pose estimation of novel objects.
- Abstract(参考訳): ゼロショットの6dオブジェクトポーズ推定は、6dのポーズが散らばったシーンで新しいオブジェクトを検出することを伴う。
幸いなことに、Segment Anything Model (SAM) は驚くべきゼロショット転送性能を示しており、この課題に対処するための有望なソリューションを提供している。
そこで本研究では,インスタンス分割とポーズ推定を含む2つのステップでタスクを実現するための新しいフレームワークであるsam-6dを提案する。
SAM-6Dは、ターゲットオブジェクトが与えられた場合、インスタンスセグメンテーションモデル(ISM)とポス推定モデル(PEM)という2つの専用サブネットワークを使用し、RGB-D画像の断片化を行う。
ismはsamをあらゆる可能なオブジェクトプロポーザルを生成するための先進的な出発点とし、セマンティック、外観、幾何学の観点で細心の注意深いオブジェクトマッチングスコアによって有効なものを選択的に保存する。
ポーズ推定を部分対部分マッチング問題として扱うことにより、pemは、密接な3d-3d対応を構築するために背景トークンの新しい設計を特徴とする2段階のポイントマッチングプロセスを実行し、最終的にポーズ推定を生成する。
SAM-6Dは、ベルとホイッスルなしで、インスタンスセグメンテーションと新しいオブジェクトのポーズ推定の両方において、BOPベンチマークの7つのコアデータセット上の既存のメソッドよりも優れている。
関連論文リスト
- FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - ZS6D: Zero-shot 6D Object Pose Estimation using Vision Transformers [9.899633398596672]
ゼロショット新規オブジェクト6Dのポーズ推定にZS6Dを導入する。
事前訓練された視覚変換器(ViT)を用いて抽出された視覚ディスクリプタは、レンダリングテンプレートのマッチングに使用される。
LMO、YCBV、TLESSデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-09-21T11:53:01Z) - SA6D: Self-Adaptive Few-Shot 6D Pose Estimator for Novel and Occluded
Objects [24.360831082478313]
提案手法は,SA6Dと呼ばれる数ショットポーズ推定(FSPE)手法である。
自己適応的なセグメンテーションモジュールを使用して、新しいターゲットオブジェクトを特定し、ターゲットオブジェクトのポイントクラウドモデルを構築する。
実世界のテーブルトップオブジェクトデータセット上でSA6Dを評価し,既存のFSPE手法よりもSA6Dが優れていることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:19:26Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - Single-stage Keypoint-based Category-level Object Pose Estimation from
an RGB Image [27.234658117816103]
カテゴリレベルのオブジェクトポーズ推定のための,単一段階のキーポイントに基づくアプローチを提案する。
提案ネットワークは2次元オブジェクト検出を行い、2次元キーポイントを検出し、6-DoFのポーズを推定し、相対的に有界な立方体次元を回帰する。
我々は,3次元IoU測定値における最先端の手法よりも優れた,挑戦的なObjectronベンチマークに関する広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-09-13T17:55:00Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z) - 3D Registration for Self-Occluded Objects in Context [66.41922513553367]
このシナリオを効果的に処理できる最初のディープラーニングフレームワークを紹介します。
提案手法はインスタンスセグメンテーションモジュールとポーズ推定モジュールから構成される。
これにより、高価な反復手順を必要とせず、ワンショットで3D登録を行うことができます。
論文 参考訳(メタデータ) (2020-11-23T08:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。