論文の概要: 3D-ViTac: Learning Fine-Grained Manipulation with Visuo-Tactile Sensing
- arxiv url: http://arxiv.org/abs/2410.24091v2
- Date: Mon, 06 Jan 2025 22:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:47:55.458258
- Title: 3D-ViTac: Learning Fine-Grained Manipulation with Visuo-Tactile Sensing
- Title(参考訳): 3D-ViTac: Visuo-Tactile Sensing を用いた細粒度マニピュレーション学習
- Authors: Binghao Huang, Yixuan Wang, Xinyi Yang, Yiyue Luo, Yunzhu Li,
- Abstract要約: 本稿では,ロボットのためのマルチモーダルセンシング学習システムであるtextbf3D-ViTacを紹介する。
このシステムは、高密度センシングユニットを備えた触覚センサーを備えており、それぞれが3$mm2$の面積をカバーしている。
低コストのロボットでも精密な操作が可能であり、視覚のみのポリシーよりもはるかに優れていることを示す。
- 参考スコア(独自算出の注目度): 18.189782619503074
- License:
- Abstract: Tactile and visual perception are both crucial for humans to perform fine-grained interactions with their environment. Developing similar multi-modal sensing capabilities for robots can significantly enhance and expand their manipulation skills. This paper introduces \textbf{3D-ViTac}, a multi-modal sensing and learning system designed for dexterous bimanual manipulation. Our system features tactile sensors equipped with dense sensing units, each covering an area of 3$mm^2$. These sensors are low-cost and flexible, providing detailed and extensive coverage of physical contacts, effectively complementing visual information. To integrate tactile and visual data, we fuse them into a unified 3D representation space that preserves their 3D structures and spatial relationships. The multi-modal representation can then be coupled with diffusion policies for imitation learning. Through concrete hardware experiments, we demonstrate that even low-cost robots can perform precise manipulations and significantly outperform vision-only policies, particularly in safe interactions with fragile items and executing long-horizon tasks involving in-hand manipulation. Our project page is available at \url{https://binghao-huang.github.io/3D-ViTac/}.
- Abstract(参考訳): 触覚と視覚の知覚は、人間が環境とのきめ細かい相互作用を行うためにも不可欠である。
ロボットのための同様のマルチモーダルセンシング機能の開発は、操作スキルを大幅に強化し、拡張することができる。
本稿では,デクスタラスなバイマンダル操作のためのマルチモーダルセンシング学習システムである「textbf{3D-ViTac}」を紹介する。
本システムは,3$mm^2$の範囲をカバーする高密度センシングユニットを備えた触覚センサを備える。
これらのセンサーは安価で柔軟性があり、物理的な接触を詳細に網羅し、視覚情報を効果的に補完する。
触覚と視覚データを統合するために,我々はそれらを統合された3次元表現空間に融合し,それらの3次元構造と空間的関係を保存する。
マルチモーダル表現は、模倣学習のための拡散ポリシーと結合することができる。
具体的なハードウェア実験を通じて、低コストのロボットでも精密な操作を行え、特に脆弱なアイテムとの安全なインタラクションや、手動操作を含む長期作業において、視覚のみのポリシーを大幅に上回ることが実証された。
プロジェクトページは \url{https://binghao-huang.github.io/3D-ViTac/} で公開されている。
関連論文リスト
- Learning Precise, Contact-Rich Manipulation through Uncalibrated Tactile Skins [17.412763585521688]
我々は、トランスフォーマーベースのポリシーを使用して、皮膚センサーデータを視覚情報とともに追加トークンとして扱うシンプルなアプローチであるVisuo-Skin(ViSk)フレームワークを提案する。
ViSkは、視力のみと光触覚に基づくポリシーの両方で著しく優れています。
さらに、触覚と視覚のモダリティを組み合わせることで、政策性能と空間的一般化が向上し、タスク全体で平均27.5%の改善が達成される。
論文 参考訳(メタデータ) (2024-10-22T17:59:49Z) - DexTouch: Learning to Seek and Manipulate Objects with Tactile Dexterity [11.450027373581019]
視覚に頼らずに触覚で物体を操作できる多指ロボットシステムを提案する。
日常の生活を模倣するタスクのために、ロボットは触覚を使ってランダムに配置された物体を暗く操作する。
論文 参考訳(メタデータ) (2024-01-23T05:37:32Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - Robot Synesthesia: In-Hand Manipulation with Visuotactile Sensing [15.970078821894758]
視覚的・触覚的な感覚入力を活用して手動操作を可能にするシステムを提案する。
ロボット・シンセシス(Robot Synesthesia)は、人間の触覚と視覚の合成にインスパイアされた、新しい点の雲に基づく触覚表現である。
論文 参考訳(メタデータ) (2023-12-04T12:35:43Z) - The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。
M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。
視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文 参考訳(メタデータ) (2023-11-02T01:33:00Z) - See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation [49.925499720323806]
視覚的、聴覚的、触覚的知覚が、ロボットが複雑な操作タスクを解くのにどのように役立つかを研究する。
私たちは、カメラで見たり、コンタクトマイクで聞いたり、視覚ベースの触覚センサーで感じるロボットシステムを構築しました。
論文 参考訳(メタデータ) (2022-12-07T18:55:53Z) - Touch and Go: Learning from Human-Collected Vision and Touch [16.139106833276]
我々はTouch and Goという,視覚と触覚のペアデータを用いたデータセットを提案する。
人間のデータ収集者は触覚センサーを使って自然環境の物体を探査する。
私たちのデータセットは、多数の"野生の"オブジェクトとシーンにまたがっています。
論文 参考訳(メタデータ) (2022-11-22T18:59:32Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。