論文の概要: UnPose: Uncertainty-Guided Diffusion Priors for Zero-Shot Pose Estimation
- arxiv url: http://arxiv.org/abs/2508.15972v1
- Date: Thu, 21 Aug 2025 21:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.192315
- Title: UnPose: Uncertainty-Guided Diffusion Priors for Zero-Shot Pose Estimation
- Title(参考訳): UnPose:ゼロショットポス推定のための不確実なガイド付き拡散プリミティブ
- Authors: Zhaodong Jiang, Ashish Sinha, Tongtong Cao, Yuan Ren, Bingbing Liu, Binbin Xu,
- Abstract要約: UnPoseはゼロショットでモデルなしの6Dオブジェクトのポーズ推定と再構成のためのフレームワークである。
事前訓練された拡散モデルから3Dの先行値と不確実性の推定値を利用する。
6次元ポーズ推定精度と3次元再構成品質の両方において、既存のアプローチを著しく上回っている。
- 参考スコア(独自算出の注目度): 19.76147681894604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating the 6D pose of novel objects is a fundamental yet challenging problem in robotics, often relying on access to object CAD models. However, acquiring such models can be costly and impractical. Recent approaches aim to bypass this requirement by leveraging strong priors from foundation models to reconstruct objects from single or multi-view images, but typically require additional training or produce hallucinated geometry. To this end, we propose UnPose, a novel framework for zero-shot, model-free 6D object pose estimation and reconstruction that exploits 3D priors and uncertainty estimates from a pre-trained diffusion model. Specifically, starting from a single-view RGB-D frame, UnPose uses a multi-view diffusion model to estimate an initial 3D model using 3D Gaussian Splatting (3DGS) representation, along with pixel-wise epistemic uncertainty estimates. As additional observations become available, we incrementally refine the 3DGS model by fusing new views guided by the diffusion model's uncertainty, thereby continuously improving the pose estimation accuracy and 3D reconstruction quality. To ensure global consistency, the diffusion prior-generated views and subsequent observations are further integrated in a pose graph and jointly optimized into a coherent 3DGS field. Extensive experiments demonstrate that UnPose significantly outperforms existing approaches in both 6D pose estimation accuracy and 3D reconstruction quality. We further showcase its practical applicability in real-world robotic manipulation tasks.
- Abstract(参考訳): 新規な物体の6Dポーズを推定することは、ロボット工学の基本的な課題であり、しばしばオブジェクトCADモデルへのアクセスに依存している。
しかし、そのようなモデルを取得するのは費用がかかり、現実的ではない。
近年のアプローチでは、基礎モデルからの強い事前情報を利用して、単一または多視点の画像からオブジェクトを再構成するが、通常は追加のトレーニングや幻覚幾何学を生成する必要がある。
この目的のために, ゼロショット・モデルフリーな6次元オブジェクトポーズ推定・再構成のための新しいフレームワークUnPoseを提案する。
具体的には、シングルビューのRGB-Dフレームから始まり、UnPoseは3Dガウススプラッティング(3DGS)表現を用いて初期3次元モデルを推定するために多視点拡散モデルを使用し、ピクセルワイドのエピステマティックな不確実性推定を行う。
さらなる観測が可能になると,拡散モデルの不確実性によって導かれる新たなビューを融合させることで,3DGSモデルを漸進的に洗練し,ポーズ推定精度と3D再構成品質を継続的に改善する。
グローバルな一貫性を確保するため、拡散事前生成ビューとその後の観測は、さらにポーズグラフに統合され、コヒーレントな3DGSフィールドに共同最適化される。
広汎な実験により、UnPoseは6次元ポーズ推定精度と3次元再構成品質の両方において既存のアプローチよりも大幅に優れていた。
実世界のロボット操作タスクにおける実用性についても紹介する。
関連論文リスト
- UA-Pose: Uncertainty-Aware 6D Object Pose Estimation and Online Object Completion with Partial References [14.762839788171584]
6次元オブジェクトポーズ推定とオンラインオブジェクト補完のための不確実性を考慮したアプローチであるUA-Poseを提案する。
ロボットと人間の手によって操作されたYCBオブジェクトのRGBDシーケンスを含む,YCB-Video,YCBInEOAT,HO3Dデータセットについて評価を行った。
論文 参考訳(メタデータ) (2025-06-09T17:58:12Z) - Any6D: Model-free 6D Pose Estimation of Novel Objects [76.30057578269668]
我々は,6次元オブジェクトのポーズ推定のためのモデルフリーフレームワークであるAny6Dを紹介する。
新たなシーンでは、未知の物体の6Dポーズと大きさを推定するために、1枚のRGB-Dアンカー画像しか必要としない。
提案手法を5つの挑戦的データセットで評価する。
論文 参考訳(メタデータ) (2025-03-24T13:46:21Z) - HIPPo: Harnessing Image-to-3D Priors for Model-free Zero-shot 6D Pose Estimation [23.451960895369517]
本研究は、ロボット工学応用のためのモデルフリーゼロショット6Dオブジェクトポーズ推定に焦点を当てる。
本稿では,CADモデルや参照画像を必要としないHIPPoという新しいフレームワークを提案する。
私たちのHIPPo Dreamerは、わずか数秒で、目に見えない物体の3Dメッシュを生成することができます。
論文 参考訳(メタデータ) (2025-02-14T23:44:26Z) - Sparse-view Pose Estimation and Reconstruction via Analysis by Generative Synthesis [25.898616784744377]
観察されたビューの少ないセットを考えると、その観察は完全な正確な3Dを得るのに十分な直接的な証拠を与えていないかもしれない。
a) 新規なビュー合成に基づく生成先行を光度目標と組み合わせて、推定された3Dの質を向上させる方法、(b) アウトレーヤを明示的に推論し、連続最適化に基づく戦略による離散探索を用いて補正する手法であるSparseAGSを提案する。
論文 参考訳(メタデータ) (2024-12-04T18:59:24Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。