論文の概要: ConceptPose: Training-Free Zero-Shot Object Pose Estimation using Concept Vectors
- arxiv url: http://arxiv.org/abs/2512.09056v1
- Date: Tue, 09 Dec 2025 19:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.291633
- Title: ConceptPose: Training-Free Zero-Shot Object Pose Estimation using Concept Vectors
- Title(参考訳): ConceptPose:概念ベクトルを用いた学習不要ゼロショットオブジェクトポス推定
- Authors: Liming Kuang, Yordanka Velikova, Mahdi Saleh, Jan-Nico Zaech, Danda Pani Paudel, Benjamin Busam,
- Abstract要約: ConceptPoseは、トレーニングなしとモデルなしの両方のオブジェクトポーズ推定のためのフレームワークである。
提案手法は, 一般的なゼロショット相対ポーズ推定ベンチマークにおいて, 最先端の結果を達成している。
- 参考スコア(独自算出の注目度): 31.882625787109074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object pose estimation is a fundamental task in computer vision and robotics, yet most methods require extensive, dataset-specific training. Concurrently, large-scale vision language models show remarkable zero-shot capabilities. In this work, we bridge these two worlds by introducing ConceptPose, a framework for object pose estimation that is both training-free and model-free. ConceptPose leverages a vision-language-model (VLM) to create open-vocabulary 3D concept maps, where each point is tagged with a concept vector derived from saliency maps. By establishing robust 3D-3D correspondences across concept maps, our approach allows precise estimation of 6DoF relative pose. Without any object or dataset-specific training, our approach achieves state-of-the-art results on common zero shot relative pose estimation benchmarks, significantly outperforming existing methods by over 62% in ADD(-S) score, including those that utilize extensive dataset-specific training.
- Abstract(参考訳): オブジェクトのポーズ推定はコンピュータビジョンとロボティクスの基本的なタスクであるが、ほとんどの手法は広範囲でデータセット固有の訓練を必要とする。
同時に、大規模ヴィジュアル言語モデルも顕著なゼロショット機能を示している。
本研究では,これら2つの世界を,トレーニングフリーかつモデルフリーなオブジェクトポーズ推定フレームワークであるConceptPoseを導入することで橋渡しする。
ConceptPoseは視覚言語モデル(VLM)を活用してオープン語彙の3Dコンセプトマップを作成する。
概念マップ間の3D-3D対応性を確立することにより,提案手法は6DoFの相対的なポーズを正確に推定できる。
ADD(-S)スコアを62%以上上回り、データセット固有のトレーニングを広範囲に活用する手法を含め、既存の手法を著しく上回ります。
関連論文リスト
- Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models [79.96917782423219]
オリエント・アプライシング(Orient Anything)は、1つの画像でオブジェクトの向きを推定するために設計された最初のエキスパートで基礎的なモデルである。
3Dオブジェクトの前面にアノテートするパイプラインを開発することで、正確な向きのアノテーションで2Mイメージを収集する。
本モデルでは,レンダリング画像と実画像の両方において,最先端の向き推定精度を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:58:43Z) - FreeZe: Training-free zero-shot 6D pose estimation with geometric and vision foundation models [5.754251195342313]
私たちは、特定のデータでトレーニングすることなく、同じタスクに取り組む方法を示します。
我々は、事前学習された幾何学的および視覚的基礎モデルの能力を利用する新しいソリューションFreeZeを提案する。
FreeZeは、合成6Dポーズ推定データで広く訓練されたライバルを含む、最先端のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2023-12-01T22:00:14Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - What's in your hands? 3D Reconstruction of Generic Objects in Hands [49.12461675219253]
我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。
通常、既知の3Dテンプレートを仮定し、問題を3Dポーズ推定に還元する以前の作業とは対照的に、我々の作業は3Dテンプレートを知らずに汎用的なハンドヘルドオブジェクトを再構成する。
論文 参考訳(メタデータ) (2022-04-14T17:59:02Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Weakly Supervised Learning of Keypoints for 6D Object Pose Estimation [73.40404343241782]
2次元キーポイント検出に基づく弱教師付き6次元オブジェクトポーズ推定手法を提案する。
提案手法は,最先端の完全教師付きアプローチと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-03-07T16:23:47Z) - 6D Object Pose Estimation using Keypoints and Part Affinity Fields [24.126513851779936]
RGB画像からの6Dオブジェクトのポーズ推定のタスクは、自律型サービスロボットが現実世界と対話できるための重要な要件である。
既知物体の6自由度変換と配向を推定するための2段階パイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-05T14:41:19Z) - PoseContrast: Class-Agnostic Object Viewpoint Estimation in the Wild
with Pose-Aware Contrastive Learning [23.608940131120637]
3次元形状の知識を持たず,クラス非依存な3次元物体ポーズ推定の課題を考察する。
このアイデアは、目に見えないクラスのポーズを推定するために、観測されたクラスで学んだ機能を利用していますが、同様のジオメトリと正規フレームを観測されたクラスと共有します。
追加形状情報を使用する方法や検出された境界ボックスを使用する場合を含め,最先端の結果を報告する。
論文 参考訳(メタデータ) (2021-05-12T13:21:24Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。