論文の概要: UniTac2Pose: A Unified Approach Learned in Simulation for Category-level Visuotactile In-hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2509.15934v1
- Date: Fri, 19 Sep 2025 12:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.163275
- Title: UniTac2Pose: A Unified Approach Learned in Simulation for Category-level Visuotactile In-hand Pose Estimation
- Title(参考訳): UniTac2Pose:カテゴリーレベルの Visuotactile in-hand Pose 推定のシミュレーションで学んだ統一的アプローチ
- Authors: Mingdong Wu, Long Yang, Jin Liu, Weiyao Huang, Lehong Wu, Zelin Chen, Daolin Ma, Hao Dong,
- Abstract要約: 本稿では,手動ポーズ推定のための新しい3段階フレームワークを提案する。
最初の段階では、サンプリングとプレランクのポーズ候補、続いてこれらの候補を反復的に洗練する。
最終段階では、最も可能性の高いポーズ候補を特定するためにポストランクが適用される。
- 参考スコア(独自算出の注目度): 19.042061670329733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate estimation of the in-hand pose of an object based on its CAD model is crucial in both industrial applications and everyday tasks, ranging from positioning workpieces and assembling components to seamlessly inserting devices like USB connectors. While existing methods often rely on regression, feature matching, or registration techniques, achieving high precision and generalizability to unseen CAD models remains a significant challenge. In this paper, we propose a novel three-stage framework for in-hand pose estimation. The first stage involves sampling and pre-ranking pose candidates, followed by iterative refinement of these candidates in the second stage. In the final stage, post-ranking is applied to identify the most likely pose candidates. These stages are governed by a unified energy-based diffusion model, which is trained solely on simulated data. This energy model simultaneously generates gradients to refine pose estimates and produces an energy scalar that quantifies the quality of the pose estimates. Additionally, borrowing the idea from the computer vision domain, we incorporate a render-compare architecture within the energy-based score network to significantly enhance sim-to-real performance, as demonstrated by our ablation studies. We conduct comprehensive experiments to show that our method outperforms conventional baselines based on regression, matching, and registration techniques, while also exhibiting strong intra-category generalization to previously unseen CAD models. Moreover, our approach integrates tactile object pose estimation, pose tracking, and uncertainty estimation into a unified framework, enabling robust performance across a variety of real-world conditions.
- Abstract(参考訳): CADモデルに基づくオブジェクトの実際の動作の正確な推定は、ワークピースの位置決めや組み立て部品から、USBコネクタなどのデバイスをシームレスに挿入することまで、産業アプリケーションと日常業務の両方において重要である。
既存の手法は回帰、特徴マッチング、登録技術に頼っていることが多いが、未確認CADモデルに高い精度と一般化性を実現することは大きな課題である。
本稿では,手動ポーズ推定のための新しい3段階フレームワークを提案する。
第1段階では、サンプリングとプレランクのポーズ候補、続いて第2段階でこれらの候補を反復的に洗練する。
最終段階では、最も可能性の高いポーズ候補を特定するためにポストランクが適用される。
これらの段階は、シミュレーションデータのみに基づいて訓練された、統一されたエネルギーベースの拡散モデルによって制御される。
このエネルギーモデルは同時に勾配を生成してポーズ推定を洗練させ、ポーズ推定の品質を定量化するエネルギースカラーを生成する。
さらに、コンピュータビジョン領域からアイデアを借用し、エネルギーベースのスコアネットワークにレンダリング・コンパレント・アーキテクチャを組み込み、シミュレーション・トゥ・リアルなパフォーマンスを大幅に向上させる。
提案手法は回帰,マッチング,登録技術に基づいて従来のベースラインよりも優れた性能を示すとともに,これまで見られなかったCADモデルに対して強力なカテゴリ内一般化を示す。
さらに, 触覚オブジェクトのポーズ推定, ポーズ追跡, 不確実性推定を統合フレームワークに統合し, 様々な実環境におけるロバストな性能を実現する。
関連論文リスト
- UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。
参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal
Category-level Pose Estimation [20.676510832922016]
本研究では,部分物体形状の復元に不可欠な高密度正準写像を推定するために拡散に依存する確率モデルを提案する。
マルチモーダル入力表現を用いた拡散モデルの強度を活用することにより,性能向上のための重要なコンポーネントを導入する。
提案手法は, 生成した合成データのみに基づいて訓練されているにもかかわらず, 最先端の性能と前例のない一般化特性を達成している。
論文 参考訳(メタデータ) (2024-02-20T01:48:33Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - GenPose: Generative Category-level Object Pose Estimation via Diffusion
Models [5.1998359768382905]
カテゴリーレベルのオブジェクトポーズ推定を条件付き生成モデルとして再検討することで,新しい解を提案する。
提案手法は,厳密な5d2cmおよび5d5cmの計測値に対して50%と60%を越え,REAL275データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-18T11:45:42Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。