論文の概要: ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation
- arxiv url: http://arxiv.org/abs/2504.13179v1
- Date: Thu, 17 Apr 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:35:40.617653
- Title: ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation
- Title(参考訳): ViTa-Zero:Zero-shot Visuotactile Object 6D Pose Estimation
- Authors: Hongyu Li, James Akl, Srinath Sridhar, Tye Brady, Taskin Padir,
- Abstract要約: ViTa-Zeroはゼロショットビゾタクティルポーズ推定フレームワークである。
実世界のロボット・セットアップの実験を通して、我々のフレームワークを検証する。
- 参考スコア(独自算出の注目度): 14.575011735514522
- License:
- Abstract: Object 6D pose estimation is a critical challenge in robotics, particularly for manipulation tasks. While prior research combining visual and tactile (visuotactile) information has shown promise, these approaches often struggle with generalization due to the limited availability of visuotactile data. In this paper, we introduce ViTa-Zero, a zero-shot visuotactile pose estimation framework. Our key innovation lies in leveraging a visual model as its backbone and performing feasibility checking and test-time optimization based on physical constraints derived from tactile and proprioceptive observations. Specifically, we model the gripper-object interaction as a spring-mass system, where tactile sensors induce attractive forces, and proprioception generates repulsive forces. We validate our framework through experiments on a real-world robot setup, demonstrating its effectiveness across representative visual backbones and manipulation scenarios, including grasping, object picking, and bimanual handover. Compared to the visual models, our approach overcomes some drastic failure modes while tracking the in-hand object pose. In our experiments, our approach shows an average increase of 55% in AUC of ADD-S and 60% in ADD, along with an 80% lower position error compared to FoundationPose.
- Abstract(参考訳): オブジェクト6Dのポーズ推定はロボット工学、特に操作タスクにおいて重要な課題である。
視覚情報と触覚情報を組み合わせた以前の研究は、将来性を示してきたが、これらのアプローチは、ビジュオタクティルデータの可用性が限られているため、一般化に苦慮することが多い。
本稿では,ゼロショットビズオタクティルポーズ推定フレームワークであるViTa-Zeroを紹介する。
私たちのキーとなるイノベーションは、視覚モデルをバックボーンとして活用し、触覚や固有受容的な観察から引き出された物理的制約に基づいて、実現可能性チェックとテスト時間最適化を実行することです。
具体的には、触覚センサが魅力的な力を誘導し、プロプレセプションが反発力を発生させるバネ質量系として、グリップと物体の相互作用をモデル化する。
実世界のロボットのセットアップ実験を通じて,このフレームワークを検証し,把握,物体の摘み取り,双方向のハンドオーバなど,視覚的バックボーンや操作シナリオにまたがる実効性を実証した。
視覚モデルと比較して、我々の手法は、手動オブジェクトのポーズを追跡しながら、いくつかの劇的な障害モードを克服する。
実験では, ADD-SのAUCでは平均55%, ADDでは60%, FoundationPoseに比べて80%低い位置誤差を示した。
関連論文リスト
- FeelAnyForce: Estimating Contact Force Feedback from Tactile Sensation for Vision-Based Tactile Sensors [18.88211706267447]
視覚に基づく触覚センサを用いて3次元接触力を推定する問題に対処する。
我々のゴールは、様々な視覚ベースの触覚センサーにまたがって、あらゆる物体の接触力(最大15N)を推定することである。
論文 参考訳(メタデータ) (2024-10-02T21:28:19Z) - Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions [8.059133373836913]
本稿では,ロボットが対象物の完全な3次元モデルを高速に学習し,不慣れな方向で操作できるアプローチを提案する。
我々は、部分的に構築されたNeRFモデルのアンサンブルを用いて、モデルの不確実性を定量化し、次の動作を決定する。
提案手法は, 部分的NeRFモデルにより対象物をいつ, どのように把握し, 再指向するかを判断し, 相互作用中に導入された不整合を補正するために, 対象のポーズを再推定する。
論文 参考訳(メタデータ) (2024-04-02T10:15:06Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - ViHOPE: Visuotactile In-Hand Object 6D Pose Estimation with Shape
Completion [11.483528203807312]
本稿では,ビゾタクティル知覚を用いた手動物体の6次元ポーズを推定するための新しいフレームワークであるViHOPEを紹介する。
本研究では,条件付き生成逆数ネットワークを用いて,容積表現に基づく手動物体の形状を完成させる。
我々は,実世界のロボットプラットフォーム上で,シミュレートから現実への移動に頑健なモデルを構築した。
論文 参考訳(メタデータ) (2023-09-11T17:58:14Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Enhancing Generalizable 6D Pose Tracking of an In-Hand Object with
Tactile Sensing [31.49529551069215]
TEG-Trackは触覚による6Dポーズトラッキングシステムである。
手に持たない物体を追跡できる。
その結果,TEG-Trackは最先端の一般化可能な6Dポーズトラッカーを一貫して強化することを示した。
論文 参考訳(メタデータ) (2022-10-08T13:47:03Z) - Occlusion-Aware Self-Supervised Monocular 6D Object Pose Estimation [88.8963330073454]
自己教師付き学習による新しい単眼6次元ポーズ推定手法を提案する。
ノイズの多い学生のトレーニングと差別化可能なレンダリングの現在の傾向を活用して、モデルをさらに自己監督する。
提案する自己超越法は,合成データに依存する他の方法よりも優れている。
論文 参考訳(メタデータ) (2022-03-19T15:12:06Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - VIPose: Real-time Visual-Inertial 6D Object Pose Tracking [3.44942675405441]
本稿では,オブジェクトのポーズ追跡問題にリアルタイムに対処するために,VIPoseと呼ばれる新しいディープニューラルネットワーク(DNN)を提案する。
重要な貢献は、オブジェクトの相対的な6Dポーズを予測するために視覚的および慣性的特徴を融合する新しいDNNアーキテクチャの設計である。
このアプローチでは、最先端技術に匹敵する精度性能を示すが、リアルタイムであることにはさらなるメリットがある。
論文 参考訳(メタデータ) (2021-07-27T06:10:23Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Learning Target Candidate Association to Keep Track of What Not to Track [100.80610986625693]
目標を追尾し続けるために、逸脱物を追跡することを提案します。
視覚的トラッキングにおいて, トラクタオブジェクト間の接地トルース対応を欠く問題に対処するために, 部分アノテーションと自己監督を組み合わせたトレーニング戦略を提案する。
我々のトラッカーは6つのベンチマークで新しい最先端のベンチマークを設定し、AUCスコアはLaSOTで67.2%、OxUvA長期データセットで+6.1%向上した。
論文 参考訳(メタデータ) (2021-03-30T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。