論文の概要: One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation
- arxiv url: http://arxiv.org/abs/2509.07978v1
- Date: Tue, 09 Sep 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.435107
- Title: One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation
- Title(参考訳): One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation
- Authors: Zheng Geng, Nan Wang, Shaocong Xu, Chongjie Ye, Bohan Li, Zhaoxi Chen, Sida Peng, Hao Zhao,
- Abstract要約: 単一の参照画像から、任意の見えない物体の6Dポーズを推定することは、現実世界のインスタンスの長い尾で動くロボティクスにとって重要である。
2つの重要なコンポーネントを通じてこれらの課題に取り組むパイプラインであるOnePoseViaGenを提案する。
実世界操作における本手法の有効性を検証し, 実物操作による頑健な器用握力の実証を行った。
- 参考スコア(独自算出の注目度): 32.45730375971019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating the 6D pose of arbitrary unseen objects from a single reference image is critical for robotics operating in the long-tail of real-world instances. However, this setting is notoriously challenging: 3D models are rarely available, single-view reconstructions lack metric scale, and domain gaps between generated models and real-world images undermine robustness. We propose OnePoseViaGen, a pipeline that tackles these challenges through two key components. First, a coarse-to-fine alignment module jointly refines scale and pose by combining multi-view feature matching with render-and-compare refinement. Second, a text-guided generative domain randomization strategy diversifies textures, enabling effective fine-tuning of pose estimators with synthetic data. Together, these steps allow high-fidelity single-view 3D generation to support reliable one-shot 6D pose estimation. On challenging benchmarks (YCBInEOAT, Toyota-Light, LM-O), OnePoseViaGen achieves state-of-the-art performance far surpassing prior approaches. We further demonstrate robust dexterous grasping with a real robot hand, validating the practicality of our method in real-world manipulation. Project page: https://gzwsama.github.io/OnePoseviaGen.github.io/
- Abstract(参考訳): 単一の参照画像から、任意の見えない物体の6Dポーズを推定することは、現実世界のインスタンスの長い尾で動くロボティクスにとって重要である。
しかし、この設定は非常に難しい。3Dモデルはほとんど利用できず、単一のビュー再構成ではメートル法スケールが欠如し、生成されたモデルと現実世界の画像の間のドメインギャップは堅牢性を損なう。
2つの重要なコンポーネントを通じてこれらの課題に取り組むパイプラインであるOnePoseViaGenを提案する。
まず、粗大なアライメントモジュールは、マルチビュー特徴マッチングとレンダリング・アンド・コンパレート・リファインメントを組み合わせることで、スケールとポーズを共同で洗練する。
第二に、テキスト誘導生成領域ランダム化戦略はテクスチャを多様化し、合成データを用いたポーズ推定器の効果的な微調整を可能にする。
これらのステップにより、高忠実度シングルビュー3D生成が信頼できるワンショット6Dポーズ推定をサポートする。
挑戦的なベンチマーク(YCBInEOAT、Toyota-Light、LM-O)において、OnePoseViaGenは、これまでのアプローチをはるかに上回る最先端のパフォーマンスを実現している。
さらに,実物操作における本手法の有効性を検証し,実物操作における頑健さを実証する。
プロジェクトページ: https://gzwsama.github.io/OnePoseviaGen.github.io/
関連論文リスト
- One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。
本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。
複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文 参考訳(メタデータ) (2025-05-07T03:54:59Z) - Any6D: Model-free 6D Pose Estimation of Novel Objects [76.30057578269668]
我々は,6次元オブジェクトのポーズ推定のためのモデルフリーフレームワークであるAny6Dを紹介する。
新たなシーンでは、未知の物体の6Dポーズと大きさを推定するために、1枚のRGB-Dアンカー画像しか必要としない。
提案手法を5つの挑戦的データセットで評価する。
論文 参考訳(メタデータ) (2025-03-24T13:46:21Z) - 6D Object Pose Estimation from Approximate 3D Models for Orbital
Robotics [19.64111218032901]
単一画像から物体の6次元ポーズを推定する新しい手法を提案する。
画素毎に3次元モデル座標を回帰する高密度な2次元から3次元対応予測器を用いる。
提案手法は,SPEED+データセット上での最先端性能を実現し,SPEC2021ポストモーテムコンペティションで優勝した。
論文 参考訳(メタデータ) (2023-03-23T13:18:05Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。