論文の概要: MonoDiff9D: Monocular Category-Level 9D Object Pose Estimation via Diffusion Model
- arxiv url: http://arxiv.org/abs/2504.10433v1
- Date: Mon, 14 Apr 2025 17:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:49:43.140189
- Title: MonoDiff9D: Monocular Category-Level 9D Object Pose Estimation via Diffusion Model
- Title(参考訳): MonoDiff9D:拡散モデルによる単眼カテゴリーレベル9次元オブジェクトポス推定
- Authors: Jian Liu, Wei Sun, Hui Yang, Jin Zheng, Zichen Geng, Hossein Rahmani, Ajmal Mian,
- Abstract要約: 拡散型単眼のカテゴリーレベル9Dオブジェクトポーズ生成法MonoDiff9Dを提案する。
まず、モノクロ画像からDINOv2を介して粗い深さをゼロショットで推定し、点雲に変換する。
次に、点雲のグローバルな特徴と入力画像とを融合させ、融合した特徴と符号化された時間ステップを使ってMonoDiff9Dを条件付けします。
- 参考スコア(独自算出の注目度): 34.52439917115497
- License:
- Abstract: Object pose estimation is a core means for robots to understand and interact with their environment. For this task, monocular category-level methods are attractive as they require only a single RGB camera. However, current methods rely on shape priors or CAD models of the intra-class known objects. We propose a diffusion-based monocular category-level 9D object pose generation method, MonoDiff9D. Our motivation is to leverage the probabilistic nature of diffusion models to alleviate the need for shape priors, CAD models, or depth sensors for intra-class unknown object pose estimation. We first estimate coarse depth via DINOv2 from the monocular image in a zero-shot manner and convert it into a point cloud. We then fuse the global features of the point cloud with the input image and use the fused features along with the encoded time step to condition MonoDiff9D. Finally, we design a transformer-based denoiser to recover the object pose from Gaussian noise. Extensive experiments on two popular benchmark datasets show that MonoDiff9D achieves state-of-the-art monocular category-level 9D object pose estimation accuracy without the need for shape priors or CAD models at any stage. Our code will be made public at https://github.com/CNJianLiu/MonoDiff9D.
- Abstract(参考訳): オブジェクトのポーズ推定は、ロボットが環境を理解し、対話するための中核的な手段である。
このタスクでは、単一のRGBカメラのみを必要とするため、単眼のカテゴリレベルの手法が魅力的である。
しかし、現在の手法は、クラス内の既知のオブジェクトの形状やCADモデルに依存している。
拡散型単眼のカテゴリーレベル9Dオブジェクトポーズ生成法MonoDiff9Dを提案する。
我々のモチベーションは、拡散モデルの確率的性質を活用して、クラス内未知物体のポーズ推定のための形状先、CADモデル、奥行きセンサーの必要性を軽減することである。
まず、モノクロ画像からDINOv2を介して粗い深さをゼロショットで推定し、点雲に変換する。
次に、点雲のグローバルな特徴と入力画像とを融合させ、融合した特徴と符号化された時間ステップを使ってMonoDiff9Dを条件付けします。
最後に,ガウス雑音から物体のポーズを復元する変圧器を設計する。
2つの人気のあるベンチマークデータセットに対する大規模な実験により、MonoDiff9Dはどの段階でも形状の前処理やCADモデルを必要とせずに、最先端のモノラルなカテゴリレベルの9Dオブジェクトが推定精度を達成していることが示された。
私たちのコードはhttps://github.com/CNJianLiu/MonoDiff9Dで公開されます。
関連論文リスト
- Diff9D: Diffusion-Based Domain-Generalized Category-Level 9-DoF Object Pose Estimation [68.81887041766373]
ドメイン一般化9-DoFオブジェクトポーズ推定のための拡散に基づくパラダイムを提案する。
本研究では,9-DoFオブジェクトのポーズ推定を生成的観点から再定義する効果的な拡散モデルを提案する。
提案手法は,最先端の領域一般化性能を実現する。
論文 参考訳(メタデータ) (2025-02-04T17:46:34Z) - Category Level 6D Object Pose Estimation from a Single RGB Image using Diffusion [9.025235713063509]
一つのRGB画像からカテゴリレベルのオブジェクトのポーズ推定を行う難しい問題に対処する。
本稿では,特定のオブジェクトモデルや深度情報を必要としない新しいソリューションを提案する。
我々のアプローチは、REAL275データセットの現在の最先端をかなりのマージンで上回る。
論文 参考訳(メタデータ) (2024-12-16T03:39:33Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - OnePose++: Keypoint-Free One-Shot Object Pose Estimation without CAD
Models [51.68715543630427]
OnePoseは繰り返し可能なイメージキーポイントの検出に依存しているので、低テクスチャオブジェクトで失敗する傾向がある。
繰り返し可能なキーポイント検出の必要性を取り除くために,キーポイントフリーポーズ推定パイプラインを提案する。
2D-3Dマッチングネットワークは、クエリ画像と再構成されたポイントクラウドモデルとの間の2D-3D対応を直接確立する。
論文 参考訳(メタデータ) (2023-01-18T17:47:13Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - Category-Agnostic 6D Pose Estimation with Conditional Neural Processes [19.387280883044482]
未知物体の6次元ポーズ推定のためのメタラーニング手法を提案する。
本アルゴリズムは,オブジェクトの表現をカテゴリに依存しない方法で学習し,オブジェクトカテゴリをまたいだ強力な一般化機能を実現する。
論文 参考訳(メタデータ) (2022-06-14T20:46:09Z) - CAPTRA: CAtegory-level Pose Tracking for Rigid and Articulated Objects
from Point Clouds [97.63549045541296]
新規なリジッドオブジェクトインスタンスに対する9DoFポーズトラッキングと,関節付きオブジェクトに対するパート毎ポーズトラッキングを処理可能な統一フレームワークを提案する。
本手法は、高速なFPS 12で、カテゴリレベルのリジッドオブジェクトポーズ(NOCS-REAL275)と関節オブジェクトポーズベンチマーク(SAPIEN、BMVC)の最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-08T00:14:58Z) - Shape Prior Deformation for Categorical 6D Object Pose and Size
Estimation [62.618227434286]
RGB-D画像から見えないオブジェクトの6Dポーズとサイズを復元する新しい学習手法を提案する。
本研究では,事前学習したカテゴリ形状からの変形を明示的にモデル化することにより,3次元オブジェクトモデルを再構築するディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-16T16:45:05Z) - Learning Canonical Shape Space for Category-Level 6D Object Pose and
Size Estimation [21.7030393344051]
我々は、ある対象カテゴリの多種多様なインスタンスに対する統一表現である標準形状空間(CASS)を学習する。
RGBD画像から標準空間の3次元点雲を生成するための変分自動エンコーダ(VAE)を訓練する。
VAEはクロスカテゴリな方法でトレーニングされており、公開されている大規模な3D形状リポジトリを活用している。
論文 参考訳(メタデータ) (2020-01-25T14:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。