論文の概要: V-HOP: Visuo-Haptic 6D Object Pose Tracking
- arxiv url: http://arxiv.org/abs/2502.17434v1
- Date: Mon, 24 Feb 2025 18:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:23.616366
- Title: V-HOP: Visuo-Haptic 6D Object Pose Tracking
- Title(参考訳): V-HOP: Visuo-Haptic 6D Object Pose Tracking
- Authors: Hongyu Li, Mingxi Jia, Tuluhan Akbulut, Yu Xiang, George Konidaris, Srinath Sridhar,
- Abstract要約: 人間は自然に視覚と触覚を統合し、操作中に頑健な物体の知覚を行う。
事前のポーズ推定研究は視覚的・触覚的・触覚的フィードバックを組み合わせようと試みている。
視覚と触覚の入力をシームレスに統合する新しいビジュオ触覚変換器を用いたオブジェクトポーズトラッカーを提案する。
- 参考スコア(独自算出の注目度): 18.984396185797667
- License:
- Abstract: Humans naturally integrate vision and haptics for robust object perception during manipulation. The loss of either modality significantly degrades performance. Inspired by this multisensory integration, prior object pose estimation research has attempted to combine visual and haptic/tactile feedback. Although these works demonstrate improvements in controlled environments or synthetic datasets, they often underperform vision-only approaches in real-world settings due to poor generalization across diverse grippers, sensor layouts, or sim-to-real environments. Furthermore, they typically estimate the object pose for each frame independently, resulting in less coherent tracking over sequences in real-world deployments. To address these limitations, we introduce a novel unified haptic representation that effectively handles multiple gripper embodiments. Building on this representation, we introduce a new visuo-haptic transformer-based object pose tracker that seamlessly integrates visual and haptic input. We validate our framework in our dataset and the Feelsight dataset, demonstrating significant performance improvement on challenging sequences. Notably, our method achieves superior generalization and robustness across novel embodiments, objects, and sensor types (both taxel-based and vision-based tactile sensors). In real-world experiments, we demonstrate that our approach outperforms state-of-the-art visual trackers by a large margin. We further show that we can achieve precise manipulation tasks by incorporating our real-time object tracking result into motion plans, underscoring the advantages of visuo-haptic perception. Our model and dataset will be made open source upon acceptance of the paper. Project website: https://lhy.xyz/projects/v-hop/
- Abstract(参考訳): 人間は自然に視覚と触覚を統合し、操作中に頑健な物体の知覚を行う。
いずれのモダリティの喪失も性能を著しく低下させる。
この多感覚統合にインスパイアされた先行オブジェクトポーズ推定研究は、視覚と触覚/触覚のフィードバックを組み合わせることを試みている。
これらの研究は、制御された環境や合成データセットの改善を示すが、多種多様なグリップパ、センサーレイアウト、あるいはシム・トゥ・リアル環境の一般化が不十分なため、現実の環境では視覚のみのアプローチを過小評価することが多い。
さらに、通常、各フレームに対するオブジェクトのポーズを独立して推定する。
これらの制約に対処するために,複数のグリップパの具体化を効果的に扱える新しい統一型触覚表現を導入する。
この表現に基づいて,視覚的および触覚的な入力をシームレスに統合する,ビジュオハプティックトランスフォーマーベースのオブジェクトポーズトラッカーを導入する。
当社のフレームワークをデータセットとFeelsightデータセットで検証し、挑戦的なシーケンスに対する大幅なパフォーマンス向上を実証しています。
特に,本手法は,新しいエボディメント,オブジェクト,センサタイプ(タクセルベースおよび視覚ベースの触覚センサの両方)に対して,優れた一般化とロバスト性を実現する。
実世界の実験では、我々の手法が最先端の視覚トラッカーよりも大きなマージンで優れていることを示した。
さらに、実時間物体追跡結果を運動計画に組み込むことで正確な操作を行えることを示し、ビジュオ触覚知覚の利点を浮き彫りにする。
私たちのモデルとデータセットは、論文の受理時にオープンソース化されます。
プロジェクトウェブサイト:https://lhy.xyz/projects/v-hop/
関連論文リスト
- Watch Less, Feel More: Sim-to-Real RL for Generalizable Articulated Object Manipulation via Motion Adaptation and Impedance Control [7.986465090160508]
可変インピーダンス制御と動き適応を備えた新しいRLパイプラインを提案する。
我々のパイプラインは、ゼロショットsim-to-real転送時の滑らかで器用な動きに焦点を当てている。
我々の知る限りでは、われわれの政策は現実世界で84%の成功率を最初に報告した。
論文 参考訳(メタデータ) (2025-02-20T11:18:35Z) - GAPartManip: A Large-scale Part-centric Dataset for Material-Agnostic Articulated Object Manipulation [9.593020996636932]
音声操作のための大規模部分中心データセットを提案する。
我々は、深度推定と相互作用ポーズ予測のための最先端のいくつかの手法と統合する。
実験により、我々のデータセットは深度知覚と行動可能な相互作用の予測の性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-11-27T12:11:23Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Visual-Tactile Multimodality for Following Deformable Linear Objects
Using Reinforcement Learning [15.758583731036007]
本稿では,視覚と触覚入力を併用して変形可能な線形物体を追従するタスクを完遂する問題について検討する。
我々は,異なる感覚モーダルを用いた強化学習エージェントを作成し,その動作をどのように促進するかを検討する。
実験の結果,視覚入力と触覚入力の両方を使用することで,最大92%の症例で作業が完了することがわかった。
論文 参考訳(メタデータ) (2022-03-31T21:59:08Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。