論文の概要: End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection
- arxiv url: http://arxiv.org/abs/2511.00139v1
- Date: Fri, 31 Oct 2025 16:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.639417
- Title: End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection
- Title(参考訳): 共有自律性によるエンド・ツー・エンドデクスタースアーム・アンド・VLA政策:効率的なデータ収集のための自律型手指VLA政策によるVR遠隔操作
- Authors: Yu Cui, Yujian Zhang, Lina Tao, Yang Li, Xinyu Yi, Zhibin Li,
- Abstract要約: マクロモーションとマイクロモーションの制御を分割するフレームワークを提案する。
人間のオペレーターが直感的なVR遠隔操作を通してロボットの腕のポーズをガイドします。
自律的なDexGrasp-VLAポリシは、リアルタイム触覚と視覚フィードバックを使用して、きめ細かい手制御を処理する。
- 参考スコア(独自算出の注目度): 10.217810309422232
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Achieving human-like dexterous manipulation remains a major challenge for general-purpose robots. While Vision-Language-Action (VLA) models show potential in learning skills from demonstrations, their scalability is limited by scarce high-quality training data. Existing data collection methods face inherent constraints: manual teleoperation overloads human operators, while automated planning often produces unnatural motions. We propose a Shared Autonomy framework that divides control between macro and micro motions. A human operator guides the robot's arm pose through intuitive VR teleoperation, while an autonomous DexGrasp-VLA policy handles fine-grained hand control using real-time tactile and visual feedback. This division significantly reduces cognitive load and enables efficient collection of high-quality coordinated arm-hand demonstrations. Using this data, we train an end-to-end VLA policy enhanced with our novel Arm-Hand Feature Enhancement module, which captures both distinct and shared representations of macro and micro movements for more natural coordination. Our Corrective Teleoperation system enables continuous policy improvement through human-in-the-loop failure recovery. Experiments demonstrate that our framework generates high-quality data with minimal manpower and achieves a 90% success rate across diverse objects, including unseen instances. Comprehensive evaluations validate the system's effectiveness in developing dexterous manipulation capabilities.
- Abstract(参考訳): 人間のような巧妙な操作を達成することは、汎用ロボットにとって依然として大きな課題だ。
VLA(Vision-Language-Action)モデルはデモから学習スキルを習得する可能性を示しているが、そのスケーラビリティは高品質なトレーニングデータが少ないことで制限される。
既存のデータ収集手法には固有の制約があり、手動の遠隔操作は人間のオペレータを過負荷にし、自動化された計画はしばしば不自然な動きを発生させる。
マクロとマイクロモーションの制御を分割する共有自律性フレームワークを提案する。
人間のオペレーターは直感的なVR遠隔操作を通じてロボットの腕のポーズをガイドし、自律的なDexGrasp-VLAポリシーはリアルタイムの触覚と視覚フィードバックを使用してきめ細かい手制御を処理する。
この分割は認知負荷を大幅に減らし、高品質な協調腕のデモンストレーションの効率的な収集を可能にする。
このデータを用いて、我々は新しいArm-Hand Feature Enhancementモジュールで拡張されたエンドツーエンドのVLAポリシーを訓練し、マクロとマイクロの動きの区別と共有の両方をキャプチャして、より自然な調整を行う。
我々の補正遠隔操作システムでは, ヒューマン・イン・ザ・ループ障害回復による継続的な政策改善が可能である。
実験により、我々のフレームワークは、最小限のマンパワーで高品質なデータを生成し、目に見えないインスタンスを含むさまざまなオブジェクトで90%の成功率を達成することが示された。
総合的な評価は、器用な操作能力を開発する際のシステムの有効性を検証する。
関連論文リスト
- ActiveUMI: Robotic Manipulation with Active Perception from Robot-Free Human Demonstrations [32.570602111692914]
複雑な双方向操作が可能なロボットに人体でのデモンストレーションを転送する,データ収集システムのためのフレームワークであるActiveUMIを提案する。
ActiveUMIは、ロボットのエンドエフェクターをミラーするセンサー付きコントローラーを備えたポータブルVR遠隔操作キットを結合する。
操作者の意図した頭部の動きをヘッドマウントディスプレイで記録することにより,視覚的注意と操作の関係を学習する。
論文 参考訳(メタデータ) (2025-10-02T02:44:21Z) - The Role of Embodiment in Intuitive Whole-Body Teleoperation for Mobile Manipulation [20.65893345441958]
最小限の物理的および認知的要求と組み合わさった強い実施感は、長期にわたってデータ品質を維持するのに役立つ。
我々は、没入型バーチャルリアリティと、ロボットの視野を従来のスクリーンベースで可視化する2つの視覚的フィードバックメカニズムを評価する。
以上の結果から,VRをフィードバックモダリティとして利用すると,タスク完了時間,認知作業量,テレオペレータの取り組みが増加することが示唆された。
論文 参考訳(メタデータ) (2025-09-03T11:25:36Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition [48.65867987106428]
本稿では,人間とロボットの協調学習システムについて紹介する。
これにより、ロボットエンドエフェクターの制御を学習支援エージェントと共有することができる。
これにより、ダウンストリームタスクにおいて、収集されたデータが十分な品質であることを保証しながら、人間の適応の必要性を減らすことができる。
論文 参考訳(メタデータ) (2024-06-29T03:37:29Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。