論文の概要: Multi-Resolution Tactile Imitation Learning for Contact-Rich Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2606.06281v1
- Date: Thu, 04 Jun 2026 15:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.895524
- Title: Multi-Resolution Tactile Imitation Learning for Contact-Rich Robotic Manipulation
- Title(参考訳): コンタクトリッチロボットマニピュレーションのための多解触覚模倣学習
- Authors: Rickmer Krohn, Erik Helmut, Niklas Funk, Jan Peters, Vignesh Prasad, Georgia Chalvatzaki,
- Abstract要約: 異なる時間分解能で動作する複数の触覚センサを利用する表現フレームワークMiTaSを提案する。
MiTaSの平均成功率は80%であり、視覚のみ(31と視覚触覚(54のベースラインではタスクを確実に解決できない)である。
詳細なセンサ読み取りと注意分析により、タスクの実行を通して異なるセンサーの重要性が明らかになる。
- 参考スコア(独自算出の注目度): 22.015203192700586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Touch sensing is beneficial for solving a wide variety of manipulation tasks. While there exists a wide range of tactile sensors with different properties, exploiting the fusion of multiple heterogeneous tactile sensors to improve manipulation learning remains underexplored. We present Multi-Resolution Tactile Sensing (MiTaS), a representation framework that leverages multiple tactile sensors operating at different temporal resolutions in order to solve complex contact-rich manipulation tasks. We propose a novel architecture using modality-specific convolutional stems and transformer-based fusion that effectively fuses information from an RGB camera stream, a vision-based GelSight Mini sensor and a high-frequency event-based Evetac sensor. This multi-sensor representation then conditions a flow-matching policy for solving downstream tasks. Experimental results across five contact-rich manipulation tasks demonstrate the effectiveness of multi-resolution tactile features in imitation learning. MiTaS achieves an average success rate of 80 %, while vision-only (31 %) and visual-tactile (54 %) baselines cannot solve the task reliably. Co-training a visuo-tactile model with multi-tactile data boosts performance by over 10 \% in certain tasks, without having access to the Evetac sensor during policy evaluation. A detailed sensor-reading and attention analysis reveals the importance of different sensors throughout task execution, validating our multi-resolution tactile sensing approach. Project Page: http://mitas-touch.github.io.
- Abstract(参考訳): タッチセンシングは、様々な操作タスクを解決するのに有用である。
様々な特性を持つ多様な触覚センサが存在するが、操作学習を改善するために複数の異質な触覚センサを融合させることは、未調査のままである。
複雑なコンタクトリッチな操作タスクを解決するために,異なる時間分解能で動作する複数の触覚センサを活用する表現フレームワークであるMulti-Resolution Tactile Sensing (MiTaS)を提案する。
本稿では,RGBカメラストリーム,GelSight Miniセンサ,高周波イベントベースEvetacセンサからの情報を効果的に融合する,モダリティ特異的畳み込みとトランスフォーマーベース融合を用いた新しいアーキテクチャを提案する。
このマルチセンサー表現は、下流タスクを解決するためのフローマッチングポリシーを条件にします。
5つのコンタクトリッチな操作課題に対する実験結果から、模倣学習における多解像度触覚特徴の有効性が示された。
MiTaSは平均成功率80%を達成し、視覚のみ(31%)と視覚触覚(54%)のベースラインはタスクを確実に解決できない。
マルチ触覚データによるビジュオ触覚モデルの協調トレーニングは、ポリシー評価中にEvetacセンサーにアクセスすることなく、特定のタスクにおけるパフォーマンスを10%以上向上させる。
詳細なセンサ読み取りとアテンション分析により、タスクの実行を通して異なるセンサーの重要性が明らかとなり、マルチレゾリューションな触覚センシングアプローチが検証された。
Project Page: http://mitas-touch.github.io
関連論文リスト
- UniForce: A Unified Latent Force Model for Robot Manipulation with Diverse Tactile Sensors [51.88112610411651]
そこで本研究では,多様な触覚センサにまたがる共用潜在力空間を学習する,新しい統合された触覚表現学習フレームワークを提案する。
UniForceは、逆ダイナミクス(image-to-force)とフォワードダイナミクス(force-to-image)を共同モデリングすることで、クロスセンサー領域シフトを低減する
高価な外部力/トルクセンサ(F/T)への依存を避けるため,静的平衡を利用して直接センサ・オブジェクト・センサ・インタラクションを介して力対効果データを収集する。
論文 参考訳(メタデータ) (2026-02-01T11:03:01Z) - Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation [21.78866976181311]
See-through-skin (STS) センサーは触覚と視覚を結合する。
既存のSTSの設計では、同時的なマルチモーダル認識が欠如し、信頼性の低い触覚追跡に悩まされている。
STSセンサであるTacThruを導入し,視覚認識と触覚信号抽出を同時に行う。
論文 参考訳(メタデータ) (2025-12-10T17:35:13Z) - AnyTouch: Learning Unified Static-Dynamic Representation across Multiple Visuo-tactile Sensors [11.506370451126378]
Visuo-Tactileセンサーは、人間の触覚をエミュレートし、ロボットが物体を理解して操作できるようにする。
そこで本研究では,4種類のビジュオ触覚センサを用いたマルチモーダル触覚マルチセンサデータセットであるTacQuadを紹介する。
マルチレベル構造を持つ静的動的マルチセンサ表現学習フレームワークであるAnyTouchを提案する。
論文 参考訳(メタデータ) (2025-02-15T08:33:25Z) - Tactile-Filter: Interactive Tactile Perception for Part Mating [54.46221808805662]
人間は触覚と触覚に頼っている。
視覚ベースの触覚センサーは、様々なロボット認識や制御タスクに広く利用されている。
本稿では,視覚に基づく触覚センサを用いた対話的知覚手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T16:27:37Z) - Learning Online Multi-Sensor Depth Fusion [100.84519175539378]
SenFuNetは、センサ固有のノイズと外れ値統計を学習するディープフュージョンアプローチである。
実世界のCoRBSとScene3Dデータセットで様々なセンサーの組み合わせで実験を行う。
論文 参考訳(メタデータ) (2022-04-07T10:45:32Z) - Learning to Detect Slip with Barometric Tactile Sensors and a Temporal
Convolutional Neural Network [7.346580429118843]
本研究では,バロメトリック・触覚センサを用いたスリップ検出手法を提案する。
我々は、スリップを検出するために時間畳み込みニューラルネットワークを訓練し、高い検出精度を実現する。
データ駆動学習と組み合わせたバロメトリック触覚センシング技術は,スリップ補償などの操作作業に適している,と我々は主張する。
論文 参考訳(メタデータ) (2022-02-19T08:21:56Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z) - OmniTact: A Multi-Directional High Resolution Touch Sensor [109.28703530853542]
既存の触覚センサーは、平らで、感度が小さいか、低解像度の信号のみを提供する。
我々は,多方向高解像度触覚センサOmniTactを紹介する。
我々は,ロボット制御の課題に対して,OmniTactの能力を評価する。
論文 参考訳(メタデータ) (2020-03-16T01:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。