論文の概要: Category Level 6D Object Pose Estimation from a Single RGB Image using Diffusion
- arxiv url: http://arxiv.org/abs/2412.11420v1
- Date: Mon, 16 Dec 2024 03:39:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:14.935480
- Title: Category Level 6D Object Pose Estimation from a Single RGB Image using Diffusion
- Title(参考訳): 拡散を用いた単一RGB画像からのカテゴリーレベル6次元オブジェクトポス推定
- Authors: Adam Bethell, Ravi Garg, Ian Reid,
- Abstract要約: 一つのRGB画像からカテゴリレベルのオブジェクトのポーズ推定を行う難しい問題に対処する。
本稿では,特定のオブジェクトモデルや深度情報を必要としない新しいソリューションを提案する。
我々のアプローチは、REAL275データセットの現在の最先端をかなりのマージンで上回る。
- 参考スコア(独自算出の注目度): 9.025235713063509
- License:
- Abstract: Estimating the 6D pose and 3D size of an object from an image is a fundamental task in computer vision. Most current approaches are restricted to specific instances with known models or require ground truth depth information or point cloud captures from LIDAR. We tackle the harder problem of pose estimation for category-level objects from a single RGB image. We propose a novel solution that eliminates the need for specific object models or depth information. Our method utilises score-based diffusion models to generate object pose hypotheses to model the distribution of possible poses for the object. Unlike previous methods that rely on costly trained likelihood estimators to remove outliers before pose aggregation using mean pooling, we introduce a simpler approach using Mean Shift to estimate the mode of the distribution as the final pose estimate. Our approach outperforms the current state-of-the-art on the REAL275 dataset by a significant margin.
- Abstract(参考訳): 画像から物体の6Dポーズと3Dサイズを推定することは、コンピュータビジョンの基本的な課題である。
現在のアプローチのほとんどは、既知のモデルを持つ特定のインスタンスに制限されている。
一つのRGB画像からカテゴリレベルのオブジェクトのポーズ推定を行う難しい問題に対処する。
本稿では,特定のオブジェクトモデルや深度情報を必要としない新しいソリューションを提案する。
提案手法では,オブジェクトに対するポーズの分布をモデル化するために,スコアベース拡散モデルを用いてオブジェクトポーズ仮説を生成する。
平均プーリングを用いてアグリゲーションを行う前にアグリゲーションを除去するために、コストがかかる確率推定器に依存する従来の手法とは異なり、平均シフトを用いて、分布のモードを最終ポーズ推定として推定するより単純なアプローチを導入する。
我々のアプローチは、REAL275データセットの現在の最先端をかなりのマージンで上回る。
関連論文リスト
- DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - Diff-DOPE: Differentiable Deep Object Pose Estimation [29.703385848843414]
Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。
この方法は、画像とモデルの投影の間の視覚的エラーを最小限に抑えるために、オブジェクトのポーズを更新するために微分可能なレンダリングを使用する。
このシンプルで効果的なアイデアは、ポーズ推定データセットで最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2023-09-30T18:52:57Z) - MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。
本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。
提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot,
Generalizable Approach using RGB Images [60.0898989456276]
本稿では,数ショットの6DoFポーズ推定のためのCas6Dという新しいフレームワークを提案する。
極めて少数の設定で対象物検出の偽陽性に対処するために,本フレームワークでは,自己教師付き事前学習型ViTを用いて,ロバストな特徴表現を学習する。
LINEMODとGenMOPデータセットの実験結果は、Cas6Dが32ショット設定で最先端の手法を9.2%、精度3.8%(Proj-5)で上回ることを示した。
論文 参考訳(メタデータ) (2023-06-13T07:45:42Z) - Generalizable Pose Estimation Using Implicit Scene Representations [4.124185654280966]
6-DoFのポーズ推定は、ロボット操作パイプラインの重要なコンポーネントである。
本稿では,異なるポーズで表現できる十分な情報を含むモデルを用いたポーズ推定の一般化能力について論じる。
最終評価では,既存手法と比較して推論性能と速度が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-26T20:42:52Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - NOPE: Novel Object Pose Estimation from a Single Image [67.11073133072527]
本稿では,新しいオブジェクトの1つのイメージを入力として取り込んで,オブジェクトの3Dモデルに関する事前知識を必要とせずに,新しいイメージにおけるオブジェクトの相対的なポーズを予測するアプローチを提案する。
我々は、オブジェクトを取り巻く視点に対する識別的埋め込みを直接予測するモデルを訓練することで、これを実現する。
この予測は単純なU-Netアーキテクチャを用いて行われ、要求されたポーズに注意を向け、条件を定め、非常に高速な推論をもたらす。
論文 参考訳(メタデータ) (2023-03-23T18:55:43Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - NeRF-Pose: A First-Reconstruct-Then-Regress Approach for
Weakly-supervised 6D Object Pose Estimation [44.42449011619408]
トレーニング中に2次元オブジェクトセグメンテーションと既知の相対カメラポーズしか必要としないNeRF-Poseという,弱教師付き再構築型パイプラインを提案する。
予測応答から安定かつ正確なポーズを推定するために、NeRF対応RAN+SACアルゴリズムを用いる。
LineMod-Occlusion 実験の結果,提案手法は6次元ポーズ推定法と比較して最先端の精度を持つことがわかった。
論文 参考訳(メタデータ) (2022-03-09T15:28:02Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。