論文の概要: VTouch++: A Multimodal Dataset with Vision-Based Tactile Enhancement for Bimanual Manipulation
- arxiv url: http://arxiv.org/abs/2604.20444v1
- Date: Wed, 22 Apr 2026 11:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.099948
- Title: VTouch++: A Multimodal Dataset with Vision-Based Tactile Enhancement for Bimanual Manipulation
- Title(参考訳): VTouch++:バイマニピュレーションのための視覚ベースの触覚強調機能を備えたマルチモーダルデータセット
- Authors: Qianxi Hua, Xinyue Li, Zheng Yan, Yang Li, Chi Zhang, Yongyao Li, Yufei Liu,
- Abstract要約: 近年、身体知能は急速に進歩しているが、特に接触に富むタスクにおけるバイマニュアル操作は依然として困難である。
これは主に、リッチな物理的相互作用信号、システマティックなタスク編成、十分なスケールのデータセットが不足しているためである。
VTOUCHデータセットを導入し、高忠実な物理的相互作用信号を提供し、マトリックススタイルのタスク設計を採用し、実世界の需要駆動シナリオをカバーする自動データ収集パイプラインを採用する。
- 参考スコア(独自算出の注目度): 10.08235353271524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied intelligence has advanced rapidly in recent years; however, bimanual manipulation-especially in contact-rich tasks remains challenging. This is largely due to the lack of datasets with rich physical interaction signals, systematic task organization, and sufficient scale. To address these limitations, we introduce the VTOUCH dataset. It leverages vision based tactile sensing to provide high-fidelity physical interaction signals, adopts a matrix-style task design to enable systematic learning, and employs automated data collection pipelines covering real-world, demand-driven scenarios to ensure scalability. To further validate the effectiveness of the dataset, we conduct extensive quantitative experiments on cross-modal retrieval as well as real-robot evaluation. Finally, we demonstrate real-world performance through generalizable inference across multiple robots, policies, and tasks.
- Abstract(参考訳): 近年、身体知能は急速に進歩しているが、特に接触に富むタスクにおけるバイマニュアル操作は依然として困難である。
これは主に、リッチな物理的相互作用信号、システマティックなタスク編成、十分なスケールのデータセットが不足しているためである。
これらの制限に対処するため、VTOUCHデータセットを導入します。
視覚ベースの触覚センサを活用して、高忠実な物理的インタラクション信号を提供し、体系的な学習を可能にするためにマトリックススタイルのタスク設計を採用し、リアルタイムで需要駆動のシナリオをカバーする自動データ収集パイプラインを使用してスケーラビリティを確保する。
データセットの有効性をさらに検証するため,クロスモーダル検索と実ロボット評価について広範囲にわたる定量的実験を行った。
最後に,複数のロボット,ポリシ,タスクにまたがる一般化可能な推論を通じて実世界のパフォーマンスを示す。
関連論文リスト
- TAMEn: Tactile-Aware Manipulation Engine for Closed-Loop Data Collection in Contact-Rich Tasks [16.262130849751312]
TAMEnは、連絡先の多いタスクでクローズドループデータ収集を行う、触覚対応の操作エンジンである。
本システムは異種グリップの高速適応を可能にするクロスモルフォロジー・ウェアラブルインタフェースを備えている。
提案するビジュオ触覚学習フレームワークは,多種多様な操作タスクにおいて,タスク成功率を34%から75%に向上させる。
論文 参考訳(メタデータ) (2026-04-08T17:49:35Z) - OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation [57.133721026727706]
textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。
我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
論文 参考訳(メタデータ) (2026-03-19T17:52:42Z) - DexViTac: Collecting Human Visuo-Tactile-Kinematic Demonstrations for Contact-Rich Dexterous Manipulation [4.463599051210204]
大規模で高品質なマルチモーダルデモは、接触に富むデキスタス操作のロボット学習に不可欠である。
本稿では,コンタクトリッチなデキスタラス操作に適した携帯型人中心データ収集システムであるDexViTacを紹介する。
論文 参考訳(メタデータ) (2026-03-18T15:39:58Z) - UniVTAC: A Unified Simulation Platform for Visuo-Tactile Manipulation Data Generation, Learning, and Benchmarking [47.900334665380115]
シミュレーションベースのビジュオ触覚データプラットフォームUniVTACを提案する。
大規模なシミュレーション合成データに基づいて訓練されたビジュオ触覚エンコーダであるUniVTACエンコーダを紹介する。
代表的な8つのビジュオ触覚操作タスクからなるUniVTACベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-10T18:57:00Z) - TacUMI: A Multi-Modal Universal Manipulation Interface for Contact-Rich Tasks [35.05859151174601]
我々は、ハンドヘルドデモデバイスUniversal Manipulation Interface(UMI)のアイデアに基づいて構築する。
本稿では,ViTacセンサ,力トルクセンサ,ポーズトラッカーをロボット互換グリップパーに組み込んだマルチモーダルデータ収集システムであるTacUMIを紹介する。
次に、時間モデルを利用して意味的に意味のあるイベント境界を検出するマルチモーダルセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-21T00:14:28Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Learning Visuotactile Skills with Two Multifingered Hands [80.99370364907278]
マルチフィンガーハンドとバイソタクティブルデータを用いたバイマニアルシステムを用いて,人間の実演からの学習を探索する。
以上の結果から,バイスオタクティブルデータからの両指多指操作における有望な進歩が示唆された。
論文 参考訳(メタデータ) (2024-04-25T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。