論文の概要: A Low-Cost Vision-Based Tactile Gripper with Pretraining Learning for Contact-Rich Manipulation
- arxiv url: http://arxiv.org/abs/2602.00514v2
- Date: Tue, 03 Feb 2026 08:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.042361
- Title: A Low-Cost Vision-Based Tactile Gripper with Pretraining Learning for Contact-Rich Manipulation
- Title(参考訳): コンタクトリッチマニピュレーションのための事前学習による低コスト視力触覚グリッパー
- Authors: Yaohua Liu, Binkai Ou, Zicheng Qiu, Ce Hao, Hengjun Zhang,
- Abstract要約: LVTGは、安定で頑健で効率的な物理的相互作用のために設計された低コストのビゾ触覚グリップである。
既存のビジュオ触覚センサとは異なり、LVTGはより効果的で安定した日常的な物体の把握を可能にしている。
視覚と触覚フィードバックの統合により、LVTGはリッチで高忠実な感覚データを提供することができる。
- 参考スコア(独自算出の注目度): 5.419573979314354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic manipulation in contact-rich environments remains challenging, particularly when relying on conventional tactile sensors that suffer from limited sensing range, reliability, and cost-effectiveness. In this work, we present LVTG, a low-cost visuo-tactile gripper designed for stable, robust, and efficient physical interaction. Unlike existing visuo-tactile sensors, LVTG enables more effective and stable grasping of larger and heavier everyday objects, thanks to its enhanced tactile sensing area and greater opening angle. Its surface skin is made of highly wear-resistant material, significantly improving durability and extending operational lifespan. The integration of vision and tactile feedback allows LVTG to provide rich, high-fidelity sensory data, facilitating reliable perception during complex manipulation tasks. Furthermore, LVTG features a modular design that supports rapid maintenance and replacement. To effectively fuse vision and touch, We adopt a CLIP-inspired contrastive learning objective to align tactile embeddings with their corresponding visual observations, enabling a shared cross-modal representation space for visuo-tactile perception. This alignment improves the performance of an Action Chunking Transformer (ACT) policy in contact-rich manipulation, leading to more efficient data collection and more effective policy learning. Compared to the original ACT method, the proposed LVTG with pretraining achieves significantly higher success rates in manipulation tasks.
- Abstract(参考訳): 接触の多い環境におけるロボット操作は、特にセンサー範囲の制限、信頼性、費用対効果に悩まされている従来の触覚センサーに依存する場合、依然として困難である。
本研究では,安定で堅牢で効率的な物理的相互作用を実現するために設計された低コストなビゾ触覚グリップであるLVTGについて述べる。
既存のビジュオ触覚センサと異なり、LVTGは触覚センサーの強化と開口角の増大により、より効果的で安定した日常的な物体の把握を可能にしている。
表面の皮膚は耐摩耗性が高く、耐久性を著しく向上し、寿命を延ばす。
視覚と触覚フィードバックの統合により、LVTGはリッチで高忠実な感覚データを提供し、複雑な操作作業の間、信頼性の高い知覚を促進することができる。
さらに、LVTGは、迅速なメンテナンスと置換をサポートするモジュールデザインを備えている。
視覚と触覚を効果的に融合させるため、我々はCLIPにインスパイアされたコントラスト学習目標を採用し、触覚埋め込みとそれに対応する視覚的観察とを一致させ、視覚的触覚知覚のための共通モーダル表現空間を実現する。
このアライメントは、コンタクトリッチな操作におけるAction Chunking Transformer(ACT)ポリシーのパフォーマンスを改善し、より効率的なデータ収集とより効果的なポリシー学習をもたらす。
従来のACT法と比較すると,事前学習によるLVTGは操作タスクの成功率を大幅に向上させる。
関連論文リスト
- HapticVLA: Contact-Rich Manipulation via Vision-Language-Action Model without Inference-Time Tactile Sensing [1.5861606459586157]
触覚を意識した操作はオフラインで学習でき、推論時に直接触覚フィードバックなしで展開できると我々は主張する。
本稿では,HapticVLAについて述べる。HapticVLAは,SA-RWFM (Safety-Aware Reward-Weighted Flow Matching) とTactile Distillation (TD) の2つの密結合段階で進行する。
論文 参考訳(メタデータ) (2026-03-16T13:24:58Z) - TEGA: A Tactile-Enhanced Grasping Assistant for Assistive Robotics via Sensor Fusion and Closed-Loop Haptic Feedback [1.3861223044153617]
触覚強化把握アシスタント(TEGA)について紹介する。
クローズドループアシスト遠隔操作フレームワークは、リアルタイムなビブロタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタ
ウェアラブルの触覚ベストは、リアルタイムの触覚フィードバックを提供する。
論文 参考訳(メタデータ) (2026-03-05T04:12:55Z) - UniVTAC: A Unified Simulation Platform for Visuo-Tactile Manipulation Data Generation, Learning, and Benchmarking [47.900334665380115]
シミュレーションベースのビジュオ触覚データプラットフォームUniVTACを提案する。
大規模なシミュレーション合成データに基づいて訓練されたビジュオ触覚エンコーダであるUniVTACエンコーダを紹介する。
代表的な8つのビジュオ触覚操作タスクからなるUniVTACベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-10T18:57:00Z) - UniForce: A Unified Latent Force Model for Robot Manipulation with Diverse Tactile Sensors [51.88112610411651]
そこで本研究では,多様な触覚センサにまたがる共用潜在力空間を学習する,新しい統合された触覚表現学習フレームワークを提案する。
UniForceは、逆ダイナミクス(image-to-force)とフォワードダイナミクス(force-to-image)を共同モデリングすることで、クロスセンサー領域シフトを低減する
高価な外部力/トルクセンサ(F/T)への依存を避けるため,静的平衡を利用して直接センサ・オブジェクト・センサ・インタラクションを介して力対効果データを収集する。
論文 参考訳(メタデータ) (2026-02-01T11:03:01Z) - TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance [53.35296919674763]
TouchGuideは、低次元のアクション空間内でモダリティを融合させる、クロス政治的なビズオ触覚融合パラダイムである。
TouchGuideは、事前訓練された拡散またはフローマッチングビズモータポリシーをガイドする2つの段階で動作する。
高品質で費用対効果の高いデータによるTouchGuideトレーニングを容易にするために,データ収集システムであるTacUMIを導入する。
論文 参考訳(メタデータ) (2026-01-28T04:22:47Z) - Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation [58.95799126311524]
人間は視覚と触覚を使って、外的変化に対する迅速な応答や接触力の適応制御のような非常に反応性の高い能力で、コンタクトリッチなタスクを達成できる。
既存の視覚模倣学習アプローチは、複雑な振る舞いをモデル化するためにアクションチャンキングに依存している。
本稿では,Augmented Realityを通じてリアルタイム触覚フィードバックを提供する,低コスト遠隔操作システムであるTactARを紹介する。
論文 参考訳(メタデータ) (2025-03-04T18:58:21Z) - Learning Precise, Contact-Rich Manipulation through Uncalibrated Tactile Skins [17.412763585521688]
我々は、トランスフォーマーベースのポリシーを使用して、皮膚センサーデータを視覚情報とともに追加トークンとして扱うシンプルなアプローチであるVisuo-Skin(ViSk)フレームワークを提案する。
ViSkは、視力のみと光触覚に基づくポリシーの両方で著しく優れています。
さらに、触覚と視覚のモダリティを組み合わせることで、政策性能と空間的一般化が向上し、タスク全体で平均27.5%の改善が達成される。
論文 参考訳(メタデータ) (2024-10-22T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。