論文の概要: VTAO-BiManip: Masked Visual-Tactile-Action Pre-training with Object Understanding for Bimanual Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2501.03606v1
- Date: Tue, 07 Jan 2025 08:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:46:51.003824
- Title: VTAO-BiManip: Masked Visual-Tactile-Action Pre-training with Object Understanding for Bimanual Dexterous Manipulation
- Title(参考訳): VTAO-BiManip : バイマニピュレーションのための物体理解によるマスク付き視覚触覚前訓練
- Authors: Zhengnan Sun, Zhaotai Shi, Jiayin Chen, Qingtao Liu, Yu Cui, Qi Ye, Jiming Chen,
- Abstract要約: 両手の DoF の高さと協調性のため、ロボット工学における両面的な操作は依然として重要な課題である。
既存の片手操作技術は、人間のデモンストレーションを利用してRL法を誘導するが、複数のサブスキルを含む複雑な双対タスクに一般化できないことが多い。
VTAO-BiManipは,視覚触覚前訓練と物体理解を組み合わせた新しいフレームワークである。
- 参考スコア(独自算出の注目度): 8.882764358932276
- License:
- Abstract: Bimanual dexterous manipulation remains significant challenges in robotics due to the high DoFs of each hand and their coordination. Existing single-hand manipulation techniques often leverage human demonstrations to guide RL methods but fail to generalize to complex bimanual tasks involving multiple sub-skills. In this paper, we introduce VTAO-BiManip, a novel framework that combines visual-tactile-action pretraining with object understanding to facilitate curriculum RL to enable human-like bimanual manipulation. We improve prior learning by incorporating hand motion data, providing more effective guidance for dual-hand coordination than binary tactile feedback. Our pretraining model predicts future actions as well as object pose and size using masked multimodal inputs, facilitating cross-modal regularization. To address the multi-skill learning challenge, we introduce a two-stage curriculum RL approach to stabilize training. We evaluate our method on a bottle-cap unscrewing task, demonstrating its effectiveness in both simulated and real-world environments. Our approach achieves a success rate that surpasses existing visual-tactile pretraining methods by over 20%.
- Abstract(参考訳): 両手の DoF の高さと協調性のため、ロボット工学における両面的な操作は依然として重要な課題である。
既存の片手操作技術は、人間のデモンストレーションを利用してRL法を誘導するが、複数のサブスキルを含む複雑な双対タスクに一般化することができないことが多い。
本稿では,VTAO-BiManipについて紹介する。VTAO-BiManipは,視覚触覚の事前学習とオブジェクト理解を組み合わせることで,カリキュラムRLを容易にし,ヒューマンライクなバイマニュアル操作を可能にする新しいフレームワークである。
我々は、手の動きデータを組み込むことで事前学習を改善し、二元触覚フィードバックよりも双方向協調のための効果的なガイダンスを提供する。
我々の事前学習モデルは、マスク付きマルチモーダル入力を用いて将来の動作とオブジェクトのポーズとサイズを予測し、クロスモーダル正規化を容易にする。
マルチスキル学習の課題に対処するために、トレーニングを安定させるために2段階のカリキュラムRLアプローチを導入する。
実環境とシミュレーション環境の両方において,本手法の有効性を実証した。
提案手法は,既存の視覚触覚事前学習手法を20%以上上回る成功率を達成する。
関連論文リスト
- You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations [38.835807227433335]
双方向ロボット操作は、インテリジェンスを具現化した長年にわたる課題である。
両眼でのみ観察できるヨト(YOTO)を提案する。
YOTOは5つの複雑なロングホライゾンのバイマニュアルタスクを模倣することで、素晴らしいパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-01-24T03:26:41Z) - The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。
Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。
オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-14T15:28:48Z) - Twisting Lids Off with Two Hands [82.21668778600414]
シミュレーションで訓練された政策を実世界へ効果的かつ効率的に移行する方法を示す。
具体的には,ボトル状物体の蓋を両手でねじる問題について考察する。
これは、バイマガル・マルチフィンガーハンドでそのような機能を実現する最初のsim-to-real RLシステムである。
論文 参考訳(メタデータ) (2024-03-04T18:59:30Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D
Action Representation Learning [33.68311764817763]
本稿では,多目的な3次元動作表現学習のためのMasked Motion Modeling(PCM$rm 3$)を用いたPrompted Contrastを提案する。
提案手法は,比較学習とマスク付き予測タスクを相互に有益な方法で統合する。
3つの大規模データセットに基づく5つの下流タスクのテストを行い、最先端の作業と比較してPCM$rm 3$の優れた一般化能力を実証した。
論文 参考訳(メタデータ) (2023-08-08T01:27:55Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。