Fugu-MT 論文翻訳(概要): VTAO-BiManip: Masked Visual-Tactile-Action Pre-training with Object Understanding for Bimanual Dexterous Manipulation

論文の概要: VTAO-BiManip: Masked Visual-Tactile-Action Pre-training with Object Understanding for Bimanual Dexterous Manipulation

arxiv url: http://arxiv.org/abs/2501.03606v1
Date: Tue, 07 Jan 2025 08:14:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:02.987264
Title: VTAO-BiManip: Masked Visual-Tactile-Action Pre-training with Object Understanding for Bimanual Dexterous Manipulation
Title（参考訳）: VTAO-BiManip : バイマニピュレーションのための物体理解によるマスク付き視覚触覚前訓練
Authors: Zhengnan Sun, Zhaotai Shi, Jiayin Chen, Qingtao Liu, Yu Cui, Qi Ye, Jiming Chen,
Abstract要約: 両手の DoF の高さと協調性のため、ロボット工学における両面的な操作は依然として重要な課題である。既存の片手操作技術は、人間のデモンストレーションを利用してRL法を誘導するが、複数のサブスキルを含む複雑な双対タスクに一般化できないことが多い。 VTAO-BiManipは,視覚触覚前訓練と物体理解を組み合わせた新しいフレームワークである。
参考スコア（独自算出の注目度）: 8.882764358932276
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bimanual dexterous manipulation remains significant challenges in robotics due to the high DoFs of each hand and their coordination. Existing single-hand manipulation techniques often leverage human demonstrations to guide RL methods but fail to generalize to complex bimanual tasks involving multiple sub-skills. In this paper, we introduce VTAO-BiManip, a novel framework that combines visual-tactile-action pretraining with object understanding to facilitate curriculum RL to enable human-like bimanual manipulation. We improve prior learning by incorporating hand motion data, providing more effective guidance for dual-hand coordination than binary tactile feedback. Our pretraining model predicts future actions as well as object pose and size using masked multimodal inputs, facilitating cross-modal regularization. To address the multi-skill learning challenge, we introduce a two-stage curriculum RL approach to stabilize training. We evaluate our method on a bottle-cap unscrewing task, demonstrating its effectiveness in both simulated and real-world environments. Our approach achieves a success rate that surpasses existing visual-tactile pretraining methods by over 20%.
Abstract（参考訳）: 両手の DoF の高さと協調性のため、ロボット工学における両面的な操作は依然として重要な課題である。既存の片手操作技術は、人間のデモンストレーションを利用してRL法を誘導するが、複数のサブスキルを含む複雑な双対タスクに一般化することができないことが多い。本稿では,VTAO-BiManipについて紹介する。VTAO-BiManipは,視覚触覚の事前学習とオブジェクト理解を組み合わせることで,カリキュラムRLを容易にし,ヒューマンライクなバイマニュアル操作を可能にする新しいフレームワークである。我々は、手の動きデータを組み込むことで事前学習を改善し、二元触覚フィードバックよりも双方向協調のための効果的なガイダンスを提供する。我々の事前学習モデルは、マスク付きマルチモーダル入力を用いて将来の動作とオブジェクトのポーズとサイズを予測し、クロスモーダル正規化を容易にする。マルチスキル学習の課題に対処するために、トレーニングを安定させるために2段階のカリキュラムRLアプローチを導入する。実環境とシミュレーション環境の両方において,本手法の有効性を実証した。提案手法は,既存の視覚触覚事前学習手法を20%以上上回る成功率を達成する。

関連論文リスト

ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning [24.675197489823898]
シミュレーションにおいて,ヒトの両腕のスキルを手指に伝達する新しい手法であるManipTransを紹介した。実験によると、ManipTransは成功率、忠実度、効率性において最先端の手法を超越している。 DexManipNetという大規模なデータセットも作成しています。
論文参考訳（メタデータ） (2025-03-27T17:50:30Z)
Learning Adaptive Dexterous Grasping from Single Demonstrations [27.806856958659054]
この作業は、2つの重要な課題に対処する。人間による限られたデモンストレーションから、効率的なスキル獲得と、コンテキスト駆動のスキル選択だ。 AdaDexGraspは、スキルごとに1人の人間のデモからスキルを把握できるライブラリを学び、視覚言語モデル(VLM)を使用して最も適切なものを選択する。我々はAdaDexGraspをシミュレーションと実世界の両方の環境で評価し、RLの効率を大幅に改善し、さまざまなオブジェクト構成をまたいだ人間的な把握戦略の学習を可能にした。
論文参考訳（メタデータ） (2025-03-26T04:05:50Z)
Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [56.892520712892804]
本稿では,ヒューマノイドロボットを訓練して3つの巧妙な操作を行う,実用的なシミュレート・トゥ・リアルなRLレシピを提案する。未確認のオブジェクトやロバストで適応的な政策行動に対して高い成功率を示す。
論文参考訳（メタデータ） (2025-02-27T18:59:52Z)
The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。 Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文参考訳（メタデータ） (2024-05-14T15:28:48Z)
Twisting Lids Off with Two Hands [82.21668778600414]
シミュレーションで訓練された政策を実世界へ効果的かつ効率的に移行する方法を示す。具体的には,ボトル状物体の蓋を両手でねじる問題について考察する。これは、バイマガル・マルチフィンガーハンドでそのような機能を実現する最初のsim-to-real RLシステムである。
論文参考訳（メタデータ） (2024-03-04T18:59:30Z)
Tactile Active Inference Reinforcement Learning for Efficient Robotic Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文参考訳（メタデータ） (2023-11-19T10:19:22Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文参考訳（メタデータ） (2023-09-06T19:05:31Z)
Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D Action Representation Learning [33.68311764817763]
本稿では,多目的な3次元動作表現学習のためのMasked Motion Modeling(PCM$rm 3$)を用いたPrompted Contrastを提案する。提案手法は,比較学習とマスク付き予測タスクを相互に有益な方法で統合する。 3つの大規模データセットに基づく5つの下流タスクのテストを行い、最先端の作業と比較してPCM$rm 3$の優れた一般化能力を実証した。
論文参考訳（メタデータ） (2023-08-08T01:27:55Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Dexterous Manipulation from Images: Autonomous Real-World RL via Substep Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文参考訳（メタデータ） (2022-12-19T22:50:40Z)
Self-Supervised Learning of Multi-Object Keypoints for Robotic Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文参考訳（メタデータ） (2022-05-17T13:15:07Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。