論文の概要: UniTac2Pose: A Unified Approach Learned in Simulation for Category-level Visuotactile In-hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2509.15934v1
- Date: Fri, 19 Sep 2025 12:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.163275
- Title: UniTac2Pose: A Unified Approach Learned in Simulation for Category-level Visuotactile In-hand Pose Estimation
- Title(参考訳): UniTac2Pose:カテゴリーレベルの Visuotactile in-hand Pose 推定のシミュレーションで学んだ統一的アプローチ
- Authors: Mingdong Wu, Long Yang, Jin Liu, Weiyao Huang, Lehong Wu, Zelin Chen, Daolin Ma, Hao Dong,
- Abstract要約: 本稿では,手動ポーズ推定のための新しい3段階フレームワークを提案する。
最初の段階では、サンプリングとプレランクのポーズ候補、続いてこれらの候補を反復的に洗練する。
最終段階では、最も可能性の高いポーズ候補を特定するためにポストランクが適用される。
- 参考スコア(独自算出の注目度): 19.042061670329733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate estimation of the in-hand pose of an object based on its CAD model is crucial in both industrial applications and everyday tasks, ranging from positioning workpieces and assembling components to seamlessly inserting devices like USB connectors. While existing methods often rely on regression, feature matching, or registration techniques, achieving high precision and generalizability to unseen CAD models remains a significant challenge. In this paper, we propose a novel three-stage framework for in-hand pose estimation. The first stage involves sampling and pre-ranking pose candidates, followed by iterative refinement of these candidates in the second stage. In the final stage, post-ranking is applied to identify the most likely pose candidates. These stages are governed by a unified energy-based diffusion model, which is trained solely on simulated data. This energy model simultaneously generates gradients to refine pose estimates and produces an energy scalar that quantifies the quality of the pose estimates. Additionally, borrowing the idea from the computer vision domain, we incorporate a render-compare architecture within the energy-based score network to significantly enhance sim-to-real performance, as demonstrated by our ablation studies. We conduct comprehensive experiments to show that our method outperforms conventional baselines based on regression, matching, and registration techniques, while also exhibiting strong intra-category generalization to previously unseen CAD models. Moreover, our approach integrates tactile object pose estimation, pose tracking, and uncertainty estimation into a unified framework, enabling robust performance across a variety of real-world conditions.
- Abstract(参考訳): CADモデルに基づくオブジェクトの実際の動作の正確な推定は、ワークピースの位置決めや組み立て部品から、USBコネクタなどのデバイスをシームレスに挿入することまで、産業アプリケーションと日常業務の両方において重要である。
既存の手法は回帰、特徴マッチング、登録技術に頼っていることが多いが、未確認CADモデルに高い精度と一般化性を実現することは大きな課題である。
本稿では,手動ポーズ推定のための新しい3段階フレームワークを提案する。
第1段階では、サンプリングとプレランクのポーズ候補、続いて第2段階でこれらの候補を反復的に洗練する。
最終段階では、最も可能性の高いポーズ候補を特定するためにポストランクが適用される。
これらの段階は、シミュレーションデータのみに基づいて訓練された、統一されたエネルギーベースの拡散モデルによって制御される。
このエネルギーモデルは同時に勾配を生成してポーズ推定を洗練させ、ポーズ推定の品質を定量化するエネルギースカラーを生成する。
さらに、コンピュータビジョン領域からアイデアを借用し、エネルギーベースのスコアネットワークにレンダリング・コンパレント・アーキテクチャを組み込み、シミュレーション・トゥ・リアルなパフォーマンスを大幅に向上させる。
提案手法は回帰,マッチング,登録技術に基づいて従来のベースラインよりも優れた性能を示すとともに,これまで見られなかったCADモデルに対して強力なカテゴリ内一般化を示す。
さらに, 触覚オブジェクトのポーズ推定, ポーズ追跡, 不確実性推定を統合フレームワークに統合し, 様々な実環境におけるロバストな性能を実現する。
関連論文リスト
- RFM-Pose:Reinforcement-Guided Flow Matching for Fast Category-Level 6D Pose Estimation [8.3336796041978]
我々は,サンプル仮説を積極的に評価しながら,カテゴリレベルの6次元オブジェクトポーズ生成を加速する新しいフレームワーク RFM-Pose を提案する。
REAL275ベンチマークの実験では、RAM-Poseは計算コストを大幅に削減し、良好な性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-02-05T03:26:15Z) - Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。
提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。
本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文 参考訳(メタデータ) (2025-12-27T17:08:03Z) - A Survey on Efficient Vision-Language-Action Models [153.11669266922993]
VLA(Vision-Language-Action Model)は、物理世界の相互作用によってデジタル知識を橋渡しすることを目的とした、インテリジェンスにおける重要なフロンティアである。
これらの課題に緊急に対応する必要性から、この調査は、効率的なビジョン・ランゲージ・アクションモデルに関する最初の包括的なレビューを提示する。
論文 参考訳(メタデータ) (2025-10-27T17:57:33Z) - Large EEG-U-Transformer for Time-Step Level Detection Without Pre-Training [1.3254304182988286]
局所的特徴と大域的特徴の両方を捉えることで表現を効率的に学習する単純なU字モデルを提案する。
他のウィンドウレベルの分類モデルと比較して,本手法は時間段階の予測を直接出力する。
我々のモデルは、てんかんおよび他の神経疾患における人工知能に関する国際会議において、2025年の第1回「青信号検出チャレンジ」で優勝した。
論文 参考訳(メタデータ) (2025-04-01T01:33:42Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。
参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal
Category-level Pose Estimation [20.676510832922016]
本研究では,部分物体形状の復元に不可欠な高密度正準写像を推定するために拡散に依存する確率モデルを提案する。
マルチモーダル入力表現を用いた拡散モデルの強度を活用することにより,性能向上のための重要なコンポーネントを導入する。
提案手法は, 生成した合成データのみに基づいて訓練されているにもかかわらず, 最先端の性能と前例のない一般化特性を達成している。
論文 参考訳(メタデータ) (2024-02-20T01:48:33Z) - Two-Stage Surrogate Modeling for Data-Driven Design Optimization with
Application to Composite Microstructure Generation [1.912429179274357]
本稿では,科学・工学分野における逆問題に対処する2段階の機械学習に基づく代理モデリングフレームワークを提案する。
最初の段階では、"Learner"と呼ばれる機械学習モデルは、予測出力が望ましい結果と密接に一致している入力デザイン空間内の候補の限られたセットを特定する。
第2段では、第1段で生成された縮小候補空間を評価するために、「評価器」として機能する別の代理モデルを用いる。
論文 参考訳(メタデータ) (2024-01-04T00:25:12Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - GenPose: Generative Category-level Object Pose Estimation via Diffusion
Models [5.1998359768382905]
カテゴリーレベルのオブジェクトポーズ推定を条件付き生成モデルとして再検討することで,新しい解を提案する。
提案手法は,厳密な5d2cmおよび5d5cmの計測値に対して50%と60%を越え,REAL275データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-18T11:45:42Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。