論文の概要: GenPose: Generative Category-level Object Pose Estimation via Diffusion
Models
- arxiv url: http://arxiv.org/abs/2306.10531v3
- Date: Mon, 25 Dec 2023 08:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 22:32:52.177983
- Title: GenPose: Generative Category-level Object Pose Estimation via Diffusion
Models
- Title(参考訳): GenPose:拡散モデルによる生成カテゴリレベルのオブジェクトポス推定
- Authors: Jiyao Zhang, Mingdong Wu and Hao Dong
- Abstract要約: カテゴリーレベルのオブジェクトポーズ推定を条件付き生成モデルとして再検討することで,新しい解を提案する。
提案手法は,厳密な5d2cmおよび5d5cmの計測値に対して50%と60%を越え,REAL275データセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 5.1998359768382905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object pose estimation plays a vital role in embodied AI and computer vision,
enabling intelligent agents to comprehend and interact with their surroundings.
Despite the practicality of category-level pose estimation, current approaches
encounter challenges with partially observed point clouds, known as the
multihypothesis issue. In this study, we propose a novel solution by reframing
categorylevel object pose estimation as conditional generative modeling,
departing from traditional point-to-point regression. Leveraging score-based
diffusion models, we estimate object poses by sampling candidates from the
diffusion model and aggregating them through a two-step process: filtering out
outliers via likelihood estimation and subsequently mean-pooling the remaining
candidates. To avoid the costly integration process when estimating the
likelihood, we introduce an alternative method that trains an energy-based
model from the original score-based model, enabling end-to-end likelihood
estimation. Our approach achieves state-of-the-art performance on the REAL275
dataset, surpassing 50% and 60% on strict 5d2cm and 5d5cm metrics,
respectively. Furthermore, our method demonstrates strong generalizability to
novel categories sharing similar symmetric properties without fine-tuning and
can readily adapt to object pose tracking tasks, yielding comparable results to
the current state-of-the-art baselines.
- Abstract(参考訳): オブジェクトのポーズ推定は、AIとコンピュータビジョンの具体化において重要な役割を果たす。
カテゴリーレベルのポーズ推定の実用性にもかかわらず、現在のアプローチは、マルチハイポテーゼ問題として知られる部分的観測点雲の課題に遭遇する。
本研究では,カテゴリーレベルのオブジェクトポーズ推定を条件付き生成モデルとして再検討し,従来のポイント・ツー・ポイント回帰から外れた新しい解を提案する。
スコアベース拡散モデルを利用して、拡散モデルから候補をサンプリングし、2段階のプロセスでそれらを集約することによりオブジェクトのポーズを推定する。
確率を推定する際のコストのかかる統合プロセスを回避するため,従来のスコアベースモデルからエネルギーベースモデルを訓練し,エンドツーエンドの推定を可能にする方法を提案する。
提案手法は, 厳密な5d2cmおよび5d5cmで50%, 60%以上の精度でREAL275データセット上での最先端性能を実現する。
さらに,本手法は,類似の対称特性を微調整せずに共有する新しいカテゴリに対して高い一般化性を示し,オブジェクトポーズ追跡タスクに容易に適応でき,現在の最先端ベースラインに匹敵する結果が得られることを示した。
関連論文リスト
- DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal
Category-level Pose Estimation [20.676510832922016]
本研究では,部分物体形状の復元に不可欠な高密度正準写像を推定するために拡散に依存する確率モデルを提案する。
マルチモーダル入力表現を用いた拡散モデルの強度を活用することにより,性能向上のための重要なコンポーネントを導入する。
提案手法は, 生成した合成データのみに基づいて訓練されているにもかかわらず, 最先端の性能と前例のない一般化特性を達成している。
論文 参考訳(メタデータ) (2024-02-20T01:48:33Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - TTA-COPE: Test-Time Adaptation for Category-Level Object Pose Estimation [86.80589902825196]
TTA-COPEと呼ばれるカテゴリレベルのオブジェクトポーズ推定のためのテスト時間適応法を提案する。
ポーズ認識信頼度を用いて、自己学習損失を伴うポーズアンサンブルアプローチを設計する。
当社のアプローチでは,テストデータを逐次的かつオンライン的に処理し,実行時にソースドメインにアクセスする必要はない。
論文 参考訳(メタデータ) (2023-03-29T14:34:54Z) - CATRE: Iterative Point Clouds Alignment for Category-level Object Pose
Refinement [52.41884119329864]
カテゴリーレベルのオブジェクトポーズとサイズ精細化器 CATRE は、点雲からのポーズ推定を反復的に強化し、正確な結果が得られる。
提案手法は,REAL275,CAMERA25,LMのベンチマークを85.32Hzまで高速化する。
論文 参考訳(メタデータ) (2022-07-17T05:55:00Z) - Conceptually Diverse Base Model Selection for Meta-Learners in Concept
Drifting Data Streams [3.0938904602244355]
本稿では,基礎となる部分空間間の主アングル(PA)を用いて計算したベースモデルの概念的類似性を推定するための新しいアプローチを提案する。
オンライン・トランスファー・ラーニング(TL)の文脈における共通アンサンブル・プルーニング・メトリクス、すなわち予測性能と相互情報(MI)を用いた閾値付けに対するこれらの手法の評価を行った。
その結果、概念的類似度閾値は計算オーバーヘッドを低減し、予測性能とMIを用いて閾値に匹敵する予測性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-11-29T13:18:53Z) - Distributional Depth-Based Estimation of Object Articulation Models [21.046351215949525]
本研究では,奥行き画像から直接,調音モデルパラメータの分布を効率よく学習する手法を提案する。
私たちのコアコントリビューションには、剛体変換に対する分布の新しい表現が含まれています。
本稿では,カテゴリに依存しない調音モデル推定を行う新しい深層学習手法DUST-netを提案する。
論文 参考訳(メタデータ) (2021-08-12T17:44:51Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints [80.60538408386016]
連続するフレームから相対的なカメラのポーズを推定することは、視覚計測の基本的な問題である。
本稿では,検出,特徴抽出,マッチング,外乱除去のための学習可能なモジュールで構成されるエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-29T21:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。