論文の概要: Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation
- arxiv url: http://arxiv.org/abs/2512.09851v1
- Date: Wed, 10 Dec 2025 17:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.614383
- Title: Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation
- Title(参考訳): マルチモーダルロボットマニピュレーション学習のための同時触覚認識
- Authors: Yuyang Li, Yinghan Chen, Zihang Zhao, Puhao Li, Tengyu Liu, Siyuan Huang, Yixin Zhu,
- Abstract要約: See-through-skin (STS) センサーは触覚と視覚を結合する。
既存のSTSの設計では、同時的なマルチモーダル認識が欠如し、信頼性の低い触覚追跡に悩まされている。
STSセンサであるTacThruを導入し,視覚認識と触覚信号抽出を同時に行う。
- 参考スコア(独自算出の注目度): 21.78866976181311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic manipulation requires both rich multimodal perception and effective learning frameworks to handle complex real-world tasks. See-through-skin (STS) sensors, which combine tactile and visual perception, offer promising sensing capabilities, while modern imitation learning provides powerful tools for policy acquisition. However, existing STS designs lack simultaneous multimodal perception and suffer from unreliable tactile tracking. Furthermore, integrating these rich multimodal signals into learning-based manipulation pipelines remains an open challenge. We introduce TacThru, an STS sensor enabling simultaneous visual perception and robust tactile signal extraction, and TacThru-UMI, an imitation learning framework that leverages these multimodal signals for manipulation. Our sensor features a fully transparent elastomer, persistent illumination, novel keyline markers, and efficient tracking, while our learning system integrates these signals through a Transformer-based Diffusion Policy. Experiments on five challenging real-world tasks show that TacThru-UMI achieves an average success rate of 85.5%, significantly outperforming the baselines of alternating tactile-visual (66.3%) and vision-only (55.4%). The system excels in critical scenarios, including contact detection with thin and soft objects and precision manipulation requiring multimodal coordination. This work demonstrates that combining simultaneous multimodal perception with modern learning frameworks enables more precise, adaptable robotic manipulation.
- Abstract(参考訳): ロボット操作は、複雑な現実世界のタスクを扱うために、リッチなマルチモーダル認識と効果的な学習フレームワークの両方を必要とする。
触覚と視覚的知覚を組み合わせたSee-through-skin(STS)センサーは有望な知覚能力を提供し、現代の模倣学習はポリシー獲得のための強力なツールを提供する。
しかし、既存のSTSの設計には同時的なマルチモーダルな認識がなく、信頼性の低い触覚追跡に悩まされている。
さらに、これらのリッチなマルチモーダル信号を学習ベースの操作パイプラインに統合することは、依然としてオープンな課題である。
STSセンサであるTacThruと,これらのマルチモーダル信号を利用した模倣学習フレームワークであるTacThru-UMIを紹介する。
我々のセンサーは、完全に透明なエラストマー、永続的な照明、新しいキーラインマーカー、効率的なトラッキングを備えており、学習システムはトランスフォーマーベースの拡散ポリシーを介してこれらの信号を統合する。
5つの挑戦的な実世界のタスクの実験では、タクスルー-UMIの平均成功率は85.5%であり、触覚視覚(66.3%)と視覚のみ(55.4%)の交互化の基準を著しく上回っている。
このシステムは、細くて柔らかい物体との接触検出や、マルチモーダル調整を必要とする精度操作など、重要なシナリオを抽出する。
この研究は、現代の学習フレームワークと同時マルチモーダル認識を組み合わせることで、より正確で適応可能なロボット操作を可能にすることを実証している。
関連論文リスト
- Self-Supervised Multisensory Pretraining for Contact-Rich Robot Reinforcement Learning [10.782934021703783]
MultiSensory Dynamic Pretraining (MSDP)は、タスク指向のポリシー学習に適した表現型多感覚表現を学習するためのフレームワークである。
MSDPはマスク付きオートエンコーディングに基づいており、センサ埋め込みのサブセットのみからの多感覚観測を再構成することでトランスフォーマーベースのエンコーダを訓練する。
下流の政策学習では,凍結した埋め込みから動的にタスク固有の特徴を抽出するクロスアテンション機構が導入された。
論文 参考訳(メタデータ) (2025-11-18T12:32:23Z) - Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper [7.618517580705364]
触覚センサーを内蔵した携帯型軽量グリップについて述べる。
視覚信号と触覚信号を統合するクロスモーダル表現学習フレームワークを提案する。
試験管挿入や管状流体移動などの細粒度タスクに対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-07-20T17:53:59Z) - Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation [58.95799126311524]
人間は視覚と触覚を使って、外的変化に対する迅速な応答や接触力の適応制御のような非常に反応性の高い能力で、コンタクトリッチなタスクを達成できる。
既存の視覚模倣学習アプローチは、複雑な振る舞いをモデル化するためにアクションチャンキングに依存している。
本稿では,Augmented Realityを通じてリアルタイム触覚フィードバックを提供する,低コスト遠隔操作システムであるTactARを紹介する。
論文 参考訳(メタデータ) (2025-03-04T18:58:21Z) - Learning Precise, Contact-Rich Manipulation through Uncalibrated Tactile Skins [17.412763585521688]
我々は、トランスフォーマーベースのポリシーを使用して、皮膚センサーデータを視覚情報とともに追加トークンとして扱うシンプルなアプローチであるVisuo-Skin(ViSk)フレームワークを提案する。
ViSkは、視力のみと光触覚に基づくポリシーの両方で著しく優れています。
さらに、触覚と視覚のモダリティを組み合わせることで、政策性能と空間的一般化が向上し、タスク全体で平均27.5%の改善が達成される。
論文 参考訳(メタデータ) (2024-10-22T17:59:49Z) - Learning Visuotactile Skills with Two Multifingered Hands [80.99370364907278]
マルチフィンガーハンドとバイソタクティブルデータを用いたバイマニアルシステムを用いて,人間の実演からの学習を探索する。
以上の結果から,バイスオタクティブルデータからの両指多指操作における有望な進歩が示唆された。
論文 参考訳(メタデータ) (2024-04-25T17:59:41Z) - Multimodal and Force-Matched Imitation Learning with a See-Through Visuotactile Sensor [14.492202828369127]
我々は、模倣学習(IL)の枠組みの中でマルチモーダル・ビゾタクタクタブル・センサを活用して、コンタクトリッチなタスクを実行する。
本稿では,IL改善のための補完手法として,触覚力マッチングと学習モード切替という2つのアルゴリズム的貢献を紹介する。
以上の結果から, 力の一致が平均政策成功率62.5%, ビズオタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタク
論文 参考訳(メタデータ) (2023-11-02T14:02:42Z) - The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。
M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。
視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文 参考訳(メタデータ) (2023-11-02T01:33:00Z) - OmniTact: A Multi-Directional High Resolution Touch Sensor [109.28703530853542]
既存の触覚センサーは、平らで、感度が小さいか、低解像度の信号のみを提供する。
我々は,多方向高解像度触覚センサOmniTactを紹介する。
我々は,ロボット制御の課題に対して,OmniTactの能力を評価する。
論文 参考訳(メタデータ) (2020-03-16T01:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。