論文の概要: Diff9D: Diffusion-Based Domain-Generalized Category-Level 9-DoF Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2502.02525v1
- Date: Tue, 04 Feb 2025 17:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:56:36.558591
- Title: Diff9D: Diffusion-Based Domain-Generalized Category-Level 9-DoF Object Pose Estimation
- Title(参考訳): Diff9D:拡散に基づくドメイン一般化カテゴリーレベル9-DoFオブジェクトポース推定
- Authors: Jian Liu, Wei Sun, Hui Yang, Pengchao Deng, Chongpei Liu, Nicu Sebe, Hossein Rahmani, Ajmal Mian,
- Abstract要約: ドメイン一般化9-DoFオブジェクトポーズ推定のための拡散に基づくパラダイムを提案する。
本研究では,9-DoFオブジェクトのポーズ推定を生成的観点から再定義する効果的な拡散モデルを提案する。
提案手法は,最先端の領域一般化性能を実現する。
- 参考スコア(独自算出の注目度): 68.81887041766373
- License:
- Abstract: Nine-degrees-of-freedom (9-DoF) object pose and size estimation is crucial for enabling augmented reality and robotic manipulation. Category-level methods have received extensive research attention due to their potential for generalization to intra-class unknown objects. However, these methods require manual collection and labeling of large-scale real-world training data. To address this problem, we introduce a diffusion-based paradigm for domain-generalized category-level 9-DoF object pose estimation. Our motivation is to leverage the latent generalization ability of the diffusion model to address the domain generalization challenge in object pose estimation. This entails training the model exclusively on rendered synthetic data to achieve generalization to real-world scenes. We propose an effective diffusion model to redefine 9-DoF object pose estimation from a generative perspective. Our model does not require any 3D shape priors during training or inference. By employing the Denoising Diffusion Implicit Model, we demonstrate that the reverse diffusion process can be executed in as few as 3 steps, achieving near real-time performance. Finally, we design a robotic grasping system comprising both hardware and software components. Through comprehensive experiments on two benchmark datasets and the real-world robotic system, we show that our method achieves state-of-the-art domain generalization performance. Our code will be made public at https://github.com/CNJianLiu/Diff9D.
- Abstract(参考訳): 9自由度(9-DoF)オブジェクトのポーズとサイズ推定は、拡張現実とロボット操作を可能にするために不可欠である。
カテゴリーレベルの手法は、クラス内未知の物体への一般化の可能性から、広範な研究の注目を集めている。
しかし、これらの手法は大規模な実世界のトレーニングデータの手作業による収集とラベル付けを必要とする。
この問題に対処するために、ドメイン一般化されたカテゴリレベル9-DoFオブジェクトのポーズ推定のための拡散に基づくパラダイムを導入する。
我々のモチベーションは、拡散モデルの潜在一般化能力を活用して、オブジェクトのポーズ推定における領域一般化問題に対処することである。
これは、実世界のシーンへの一般化を達成するために、レンダリングされた合成データのみにモデルを訓練する。
本研究では,9-DoFオブジェクトのポーズ推定を生成的観点から再定義する効果的な拡散モデルを提案する。
私たちのモデルは、トレーニングや推論の間、いかなる3D形状も必要としません。
Denoising Diffusion Implicit Modelを用いることで、逆拡散過程を3ステップで実行し、ほぼリアルタイムに実行可能であることを示す。
最後に,ハードウェアコンポーネントとソフトウェアコンポーネントの両方からなるロボット把握システムを設計する。
2つのベンチマークデータセットと実世界のロボットシステムに関する総合的な実験を通して,本手法が最先端のドメイン一般化性能を実現することを示す。
私たちのコードはhttps://github.com/CNJianLiu/Diff9D.comで公開されます。
関連論文リスト
- Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions [8.059133373836913]
本稿では,ロボットが対象物の完全な3次元モデルを高速に学習し,不慣れな方向で操作できるアプローチを提案する。
我々は、部分的に構築されたNeRFモデルのアンサンブルを用いて、モデルの不確実性を定量化し、次の動作を決定する。
提案手法は, 部分的NeRFモデルにより対象物をいつ, どのように把握し, 再指向するかを判断し, 相互作用中に導入された不整合を補正するために, 対象のポーズを再推定する。
論文 参考訳(メタデータ) (2024-04-02T10:15:06Z) - IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - Source-Free and Image-Only Unsupervised Domain Adaptation for Category
Level Object Pose Estimation [18.011044932979143]
3DUDAは、3Dや深度データを使わずに、ニュアンスドライデンのターゲットドメインに適応できる手法である。
対象のカテゴリを単純な立方体メッシュとして表現し、ニューラル特徴活性化の生成モデルを利用する。
本手法は,グローバルな擬似ラベル付きデータセットの微調整を軽度な仮定でシミュレートする。
論文 参考訳(メタデータ) (2024-01-19T17:48:05Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - 6-DoF Stability Field via Diffusion Models [9.631625582146537]
本研究では,シーンの安定な構成を生成するオブジェクトの3次元ポーズを生成可能な生成モデルである6-DoFusionを提案する。
異なるオブジェクト配置と積み重ねタスクでモデルを評価し、安定したシーンを構築する能力を示す。
論文 参考訳(メタデータ) (2023-10-26T17:59:12Z) - ReorientDiff: Diffusion Model based Reorientation for Object
Manipulation [18.95498618397922]
望ましい設定でオブジェクトを操作できることは、ロボットが様々な実践的な応用を完了するための基本的な要件である。
本稿では,拡散モデルに基づく手法を用いたリオリエンテーション計画手法であるReorientDiffを提案する。
提案手法は,YCBオブジェクトの集合と吸引グリップを用いて評価し,95.2%のシミュレーション成功率を示す。
論文 参考訳(メタデータ) (2023-02-28T00:08:38Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。