論文の概要: ScrewMimic: Bimanual Imitation from Human Videos with Screw Space Projection
- arxiv url: http://arxiv.org/abs/2405.03666v1
- Date: Mon, 6 May 2024 17:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 12:46:34.797003
- Title: ScrewMimic: Bimanual Imitation from Human Videos with Screw Space Projection
- Title(参考訳): ScrewMimic:スクリュー・スペース・プロジェクションによる人間ビデオからのバイマチュアルな模倣
- Authors: Arpit Bahety, Priyanka Mandikal, Ben Abbatematteo, Roberto Martín-Martín,
- Abstract要約: 人間は、他の人間を観察し、遊びを通して能力を改善することで、バイマニュアル操作のスキルを学ぶ。
心理学とバイオメカニクスの独創的な研究から着想を得て,両手間の相互作用を連続的なキネマティック・リンケージとしてモデル化することを提案する。
我々は、この新しい行動表現を活用するフレームワークであるScrewMimicを導入し、人間の実演と自己指導型政策微調整の学習を容易にする。
- 参考スコア(独自算出の注目度): 12.630451735872144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bimanual manipulation is a longstanding challenge in robotics due to the large number of degrees of freedom and the strict spatial and temporal synchronization required to generate meaningful behavior. Humans learn bimanual manipulation skills by watching other humans and by refining their abilities through play. In this work, we aim to enable robots to learn bimanual manipulation behaviors from human video demonstrations and fine-tune them through interaction. Inspired by seminal work in psychology and biomechanics, we propose modeling the interaction between two hands as a serial kinematic linkage -- as a screw motion, in particular, that we use to define a new action space for bimanual manipulation: screw actions. We introduce ScrewMimic, a framework that leverages this novel action representation to facilitate learning from human demonstration and self-supervised policy fine-tuning. Our experiments demonstrate that ScrewMimic is able to learn several complex bimanual behaviors from a single human video demonstration, and that it outperforms baselines that interpret demonstrations and fine-tune directly in the original space of motion of both arms. For more information and video results, https://robin-lab.cs.utexas.edu/ScrewMimic/
- Abstract(参考訳): 双方向操作は、多くの自由度と、意味のある振る舞いを生成するために必要な厳密な空間的および時間的同期のため、ロボット工学における長年にわたる課題である。
人間は、他の人間を観察し、遊びを通して能力を改善することで、バイマニュアル操作のスキルを学ぶ。
本研究の目的は、ロボットが人間のビデオデモからバイマニュアル操作の動作を学習し、インタラクションを通じてそれらを微調整できるようにすることである。
心理学やバイオメカニクスにおける精巧な研究に触発されて、両手間の相互作用を連続的なキネマティック・リンケージとしてモデル化することを提案し、特に、両手操作のための新しいアクション・スペースを定義するために使用するスクリュー・モーションとして、スクリュー・アクションを提案する。
我々は、この新しい行動表現を活用するフレームワークであるScrewMimicを導入し、人間の実演と自己指導型政策微調整の学習を容易にする。
我々の実験は、ScrewMimicが1人の人間のビデオデモからいくつかの複雑なバイマニュアル動作を学習できることを示し、両腕の元の動き空間において、デモと微調整を直接解釈するベースラインよりも優れていることを示した。
詳しくは、https://robin-lab.cs.utexas.edu/ScrewMimic/
関連論文リスト
- XSkill: Cross Embodiment Skill Discovery [41.624343257852146]
XSkillは、非ラベルの人間とロボットの操作ビデオから純粋に、スキルプロトタイプと呼ばれるクロスボデーメント表現を発見する模倣学習フレームワークである。
シミュレーションと実環境における実験により,見知らぬタスクのスキル伝達と構成を容易にする技術プロトタイプが発見された。
論文 参考訳(メタデータ) (2023-07-19T12:51:28Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Cross-Domain Transfer via Semantic Skill Imitation [49.83150463391275]
本稿では、例えば人間ビデオなどのソースドメインからのデモンストレーションを利用して、強化学習(RL)を高速化する意味模倣手法を提案する。
関節速度のような低レベルな動作を模倣する代わりに、我々のアプローチは「電子レンジを開く」や「ストーブを回す」といった、実証された意味的なスキルのシーケンスを模倣する。
論文 参考訳(メタデータ) (2022-12-14T18:46:14Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Synthesis and Execution of Communicative Robotic Movements with
Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。
我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。
我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文 参考訳(メタデータ) (2022-03-29T15:03:05Z) - DexVIP: Learning Dexterous Grasping with Human Hand Pose Priors from
Video [86.49357517864937]
DexVIPは,人間と物体のインタラクションビデオから,器用なロボットの把握を学習する手法である。
我々は、人間とオブジェクトのインタラクションビデオから把握した画像をキュレートし、エージェントの手のポーズに先行する。
DexVIPは、手ポーズの無い既存のアプローチや、特殊な遠隔操作機器に頼っている既存のアプローチと良好に比較できることを実証する。
論文 参考訳(メタデータ) (2022-02-01T00:45:57Z) - A Differentiable Recipe for Learning Visual Non-Prehensile Planar
Manipulation [63.1610540170754]
視覚的非包括的平面操作の問題に焦点をあてる。
本稿では,ビデオデコードニューラルモデルと接触力学の先行情報を組み合わせた新しいアーキテクチャを提案する。
モジュラーで完全に差別化可能なアーキテクチャは、目に見えないオブジェクトやモーションの学習専用手法よりも優れていることが分かりました。
論文 参考訳(メタデータ) (2021-11-09T18:39:45Z) - Video2Skill: Adapting Events in Demonstration Videos to Skills in an
Environment using Cyclic MDP Homomorphisms [16.939129935919325]
Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。
まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。
次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
論文 参考訳(メタデータ) (2021-09-08T17:59:01Z) - DexMV: Imitation Learning for Dexterous Manipulation from Human Videos [11.470141313103465]
本稿では,コンピュータビジョンとロボット学習のギャップを埋めるために,新しいプラットフォームとパイプラインであるDexMVを提案する。
i)多指ロボットハンドによる複雑な操作タスクのシミュレーションシステムと,(ii)人間の手による大規模な実演を記録するコンピュータビジョンシステムとを設計する。
実演ではロボット学習を大きなマージンで改善することができ、強化学習だけでは解決できない複雑なタスクを解決できることが示される。
論文 参考訳(メタデータ) (2021-08-12T17:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。