論文の概要: You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations
- arxiv url: http://arxiv.org/abs/2501.14208v1
- Date: Fri, 24 Jan 2025 03:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:10.535873
- Title: You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations
- Title(参考訳): 一度だけ教える:ビデオデモから一眼二足歩行ロボットの操作を学べる
- Authors: Huayi Zhou, Ruixiang Wang, Yunxin Tai, Yueci Deng, Guiliang Liu, Kui Jia,
- Abstract要約: 双方向ロボット操作は、インテリジェンスを具現化した長年にわたる課題である。
両眼でのみ観察できるヨト(YOTO)を提案する。
YOTOは5つの複雑なロングホライゾンのバイマニュアルタスクを模倣することで、素晴らしいパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 38.835807227433335
- License:
- Abstract: Bimanual robotic manipulation is a long-standing challenge of embodied intelligence due to its characteristics of dual-arm spatial-temporal coordination and high-dimensional action spaces. Previous studies rely on pre-defined action taxonomies or direct teleoperation to alleviate or circumvent these issues, often making them lack simplicity, versatility and scalability. Differently, we believe that the most effective and efficient way for teaching bimanual manipulation is learning from human demonstrated videos, where rich features such as spatial-temporal positions, dynamic postures, interaction states and dexterous transitions are available almost for free. In this work, we propose the YOTO (You Only Teach Once), which can extract and then inject patterns of bimanual actions from as few as a single binocular observation of hand movements, and teach dual robot arms various complex tasks. Furthermore, based on keyframes-based motion trajectories, we devise a subtle solution for rapidly generating training demonstrations with diverse variations of manipulated objects and their locations. These data can then be used to learn a customized bimanual diffusion policy (BiDP) across diverse scenes. In experiments, YOTO achieves impressive performance in mimicking 5 intricate long-horizon bimanual tasks, possesses strong generalization under different visual and spatial conditions, and outperforms existing visuomotor imitation learning methods in accuracy and efficiency. Our project link is https://hnuzhy.github.io/projects/YOTO.
- Abstract(参考訳): 両腕の時間的調整と高次元の行動空間の特徴から、ロボット操作は長年にわたって知能を具現化してきた課題である。
以前の研究では、これらの問題を緩和したり回避したりするために、事前に定義された行動分類や直接遠隔操作に依存しており、多くの場合、単純さ、汎用性、スケーラビリティを欠いている。
異なるのは、バイマンダル操作を教える最も効果的かつ効率的な方法は、空間的時間的位置、動的姿勢、相互作用状態、外在的遷移などの豊富な特徴をほぼ無償で利用できる人間の実演ビデオから学ぶことであると信じている。
そこで本研究では,手の動きを両眼で観察し,両眼の動作パターンを抽出し,そのパターンを注入する「YOTO(You Only Teach Once)」を提案し,ロボットアームに様々な複雑なタスクを教える。
さらに,キーフレームをベースとした運動軌跡に基づいて,操作対象とその位置を多種多様に変化させた訓練実験を高速に生成するための微妙なソリューションを考案した。
これらのデータは、さまざまな場面でカスタマイズされた双方向拡散ポリシー(BiDP)を学ぶために使用できる。
実験では、5つの複雑な2次元タスクを模倣し、視覚的・空間的条件の強い一般化を持ち、既存のビズモータ模倣学習法を精度と効率で上回った。
私たちのプロジェクトリンクはhttps://hnuzhy.github.io/projects/YOTOです。
関連論文リスト
- HYPERmotion: Learning Hybrid Behavior Planning for Autonomous Loco-manipulation [7.01404330241523]
HYPERmotionは、異なるシナリオのタスクに基づいて行動を学び、選択し、計画するフレームワークである。
強化学習と全身最適化を組み合わせることで,38関節の運動を生成する。
シミュレーションと実世界の実験では、学習した動きが新しいタスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-06-20T18:21:24Z) - ScrewMimic: Bimanual Imitation from Human Videos with Screw Space Projection [12.630451735872144]
人間は、他の人間を観察し、遊びを通して能力を改善することで、バイマニュアル操作のスキルを学ぶ。
心理学とバイオメカニクスの独創的な研究から着想を得て,両手間の相互作用を連続的なキネマティック・リンケージとしてモデル化することを提案する。
我々は、この新しい行動表現を活用するフレームワークであるScrewMimicを導入し、人間の実演と自己指導型政策微調整の学習を容易にする。
論文 参考訳(メタデータ) (2024-05-06T17:43:34Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - A Differentiable Recipe for Learning Visual Non-Prehensile Planar
Manipulation [63.1610540170754]
視覚的非包括的平面操作の問題に焦点をあてる。
本稿では,ビデオデコードニューラルモデルと接触力学の先行情報を組み合わせた新しいアーキテクチャを提案する。
モジュラーで完全に差別化可能なアーキテクチャは、目に見えないオブジェクトやモーションの学習専用手法よりも優れていることが分かりました。
論文 参考訳(メタデータ) (2021-11-09T18:39:45Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Video2Skill: Adapting Events in Demonstration Videos to Skills in an
Environment using Cyclic MDP Homomorphisms [16.939129935919325]
Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。
まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。
次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
論文 参考訳(メタデータ) (2021-09-08T17:59:01Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。