論文の概要: Diffusion Features for Zero-Shot 6DoF Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2411.16668v1
- Date: Mon, 25 Nov 2024 18:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:10.937828
- Title: Diffusion Features for Zero-Shot 6DoF Object Pose Estimation
- Title(参考訳): ゼロショット6DoFオブジェクトポス推定のための拡散特性
- Authors: Bernd Von Gimborn, Philipp Ausserlechner, Markus Vincze, Stefan Thalhammer,
- Abstract要約: 本研究は,ゼロショットポーズ推定における潜在拡散モデル (LDM) のバックボーンの影響を評価する。
LDMを用いたゼロショット方式でポーズを推定するテンプレートベースのマルチステージ手法を提案する。
- 参考スコア(独自算出の注目度): 7.949705607963995
- License:
- Abstract: Zero-shot object pose estimation enables the retrieval of object poses from images without necessitating object-specific training. In recent approaches this is facilitated by vision foundation models (VFM), which are pre-trained models that are effectively general-purpose feature extractors. The characteristics exhibited by these VFMs vary depending on the training data, network architecture, and training paradigm. The prevailing choice in this field are self-supervised Vision Transformers (ViT). This study assesses the influence of Latent Diffusion Model (LDM) backbones on zero-shot pose estimation. In order to facilitate a comparison between the two families of models on a common ground we adopt and modify a recent approach. Therefore, a template-based multi-staged method for estimating poses in a zero-shot fashion using LDMs is presented. The efficacy of the proposed approach is empirically evaluated on three standard datasets for object-specific 6DoF pose estimation. The experiments demonstrate an Average Recall improvement of up to 27% over the ViT baseline. The source code is available at: https://github.com/BvG1993/DZOP.
- Abstract(参考訳): ゼロショットオブジェクトポーズ推定は、オブジェクト固有のトレーニングを必要とせずに、画像からオブジェクトポーズを検索することを可能にする。
近年のアプローチでは、視覚基盤モデル(VFM)により、効果的に汎用的な特徴抽出器である事前学習モデルによってこれを促進している。
これらのVFMの特徴は、トレーニングデータ、ネットワークアーキテクチャ、トレーニングパラダイムによって異なる。
この分野で一般的な選択肢は、自己監督型ビジョントランスフォーマー(ViT)である。
本研究は,ゼロショットポーズ推定における潜在拡散モデル (LDM) のバックボーンの影響を評価する。
共通基盤における2種類のモデルの比較を容易にするため、我々は最近のアプローチを採用し、修正する。
そこで,LDMを用いたゼロショット方式でポーズを推定するテンプレートベースのマルチステージ手法を提案する。
提案手法の有効性を,オブジェクト固有の6DoFポーズ推定のための3つの標準データセットで実験的に評価した。
実験では、ViTベースラインを27%上回る平均リコールの改善が示されている。
ソースコードは、https://github.com/BvG1993/DZOP.comで入手できる。
関連論文リスト
- Diff9D: Diffusion-Based Domain-Generalized Category-Level 9-DoF Object Pose Estimation [68.81887041766373]
ドメイン一般化9-DoFオブジェクトポーズ推定のための拡散に基づくパラダイムを提案する。
本研究では,9-DoFオブジェクトのポーズ推定を生成的観点から再定義する効果的な拡散モデルを提案する。
提案手法は,最先端の領域一般化性能を実現する。
論文 参考訳(メタデータ) (2025-02-04T17:46:34Z) - Category Level 6D Object Pose Estimation from a Single RGB Image using Diffusion [9.025235713063509]
一つのRGB画像からカテゴリレベルのオブジェクトのポーズ推定を行う難しい問題に対処する。
本稿では,特定のオブジェクトモデルや深度情報を必要としない新しいソリューションを提案する。
我々のアプローチは、REAL275データセットの現在の最先端をかなりのマージンで上回る。
論文 参考訳(メタデータ) (2024-12-16T03:39:33Z) - Particle-based 6D Object Pose Estimation from Point Clouds using Diffusion Models [15.582644209879957]
本研究では,6次元オブジェクトのポーズ推定のための拡散モデルを提案する。
推論の間、訓練された生成モデルは複数の粒子、すなわち仮説をサンプリングすることができる。
本稿では,追加のトレーニングや計算集約的な操作を必要としない2つの新規かつ効果的なポーズ選択戦略を提案する。
論文 参考訳(メタデータ) (2024-12-01T14:52:44Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - GenPose: Generative Category-level Object Pose Estimation via Diffusion
Models [5.1998359768382905]
カテゴリーレベルのオブジェクトポーズ推定を条件付き生成モデルとして再検討することで,新しい解を提案する。
提案手法は,厳密な5d2cmおよび5d5cmの計測値に対して50%と60%を越え,REAL275データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-18T11:45:42Z) - A Billion-scale Foundation Model for Remote Sensing Images [5.065947993017157]
基礎モデルの事前学習における3つの重要な要因は、事前学習方法、事前学習データセットのサイズ、モデルパラメータの数である。
本稿では,下流タスクにおける基礎モデルの性能に及ぼすモデルパラメータ数の増加の影響について検討する。
我々の知る限りでは、これはリモートセンシング分野における最初の10億ドル規模の基礎モデルである。
論文 参考訳(メタデータ) (2023-04-11T13:33:45Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。