論文の概要: Motion Tracks: A Unified Representation for Human-Robot Transfer in Few-Shot Imitation Learning
- arxiv url: http://arxiv.org/abs/2501.06994v1
- Date: Mon, 13 Jan 2025 01:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:46.321413
- Title: Motion Tracks: A Unified Representation for Human-Robot Transfer in Few-Shot Imitation Learning
- Title(参考訳): モーショントラック:Few-Shot Imitation Learningにおける人間ロボット移動の統一表現
- Authors: Juntao Ren, Priya Sundaresan, Dorsa Sadigh, Sanjiban Choudhury, Jeannette Bohg,
- Abstract要約: 本稿では,画像上の2次元短距離軌跡として行動を表現することを提案する。
これらの動作、つまりモーショントラックは、人間の手やロボットのエンドエフェクターの動作の予測方向を捉えます。
画像観察を受信し,動作トラックを動作として出力する,MT-pi(Motion Track Policy)と呼ばれるILポリシをインスタンス化する。
- 参考スコア(独自算出の注目度): 40.43176821917154
- License:
- Abstract: Teaching robots to autonomously complete everyday tasks remains a challenge. Imitation Learning (IL) is a powerful approach that imbues robots with skills via demonstrations, but is limited by the labor-intensive process of collecting teleoperated robot data. Human videos offer a scalable alternative, but it remains difficult to directly train IL policies from them due to the lack of robot action labels. To address this, we propose to represent actions as short-horizon 2D trajectories on an image. These actions, or motion tracks, capture the predicted direction of motion for either human hands or robot end-effectors. We instantiate an IL policy called Motion Track Policy (MT-pi) which receives image observations and outputs motion tracks as actions. By leveraging this unified, cross-embodiment action space, MT-pi completes tasks with high success given just minutes of human video and limited additional robot demonstrations. At test time, we predict motion tracks from two camera views, recovering 6DoF trajectories via multi-view synthesis. MT-pi achieves an average success rate of 86.5% across 4 real-world tasks, outperforming state-of-the-art IL baselines which do not leverage human data or our action space by 40%, and generalizes to scenarios seen only in human videos. Code and videos are available on our website https://portal-cornell.github.io/motion_track_policy/.
- Abstract(参考訳): ロボットに日常のタスクを自律的に完了するように教えることは、依然として課題だ。
イミテーション・ラーニング(IL)は、デモを通じてロボットにスキルを与える強力なアプローチであるが、遠隔操作型ロボットデータを収集する労働集約的なプロセスによって制限される。
人間のビデオはスケーラブルな代替手段を提供するが、ロボットアクションラベルがないため、直接ILポリシーをトレーニングすることは難しい。
そこで本研究では,画像上の2次元短距離軌跡として行動を表現することを提案する。
これらの動作、つまりモーショントラックは、人間の手やロボットのエンドエフェクターの動作の予測方向を捉えます。
画像観察を受信し,動作トラックを動作として出力する,MT-pi(Motion Track Policy)と呼ばれるILポリシをインスタンス化する。
MT-piは、この統合されたクロス・エボディメント・アクション・スペースを活用することで、人間のビデオの数分と限定的なロボットのデモによって、高い成功率でタスクを完了させる。
テスト時に2つのカメラビューからモーショントラックを予測し、マルチビュー合成により6DoF軌道を復元する。
MT-piは4つの実世界のタスクで平均86.5%の成功率を実現し、人間のデータやアクション空間を40%も活用しない最先端のILベースラインを上回り、人間のビデオにのみ見られるシナリオに一般化する。
コードとビデオは当社のWebサイト https://portal-cornell.github.io/motion_track_policy/.comで公開されている。
関連論文リスト
- Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - Whole-Body Teleoperation for Mobile Manipulation at Zero Added Cost [8.71539730969424]
MoMa-Teleopは、既存のインターフェースからエンドエフェクタ動作を推測する新しい遠隔操作手法である。
提案手法は,様々なロボットやタスクに対して,タスク完了時間が大幅に短縮されることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:09:45Z) - One-Shot Imitation under Mismatched Execution [7.060120660671016]
プロンプトとしての人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。
これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力のミスマッチの実行による重大な課題を呈する。
本稿では,人間とロボットのタスク実行を最適な輸送コストで自動調整する新しいフレームワークRHyMEを提案する。
論文 参考訳(メタデータ) (2024-09-10T16:11:57Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - Learning Human-to-Humanoid Real-Time Whole-Body Teleoperation [34.65637397405485]
本稿では,Human to Humanoid(H2O)について紹介する。H2Oは,RGBカメラのみを搭載したヒューマノイドロボットのリアルタイム遠隔操作を実現するフレームワークである。
我々は、これらの洗練された動きを用いてシミュレーションで頑健なリアルタイムヒューマノイド運動模倣機を訓練し、実ヒューマノイドロボットにゼロショットで転送する。
私たちの知る限りでは、学習に基づくリアルタイムな人型ロボット遠隔操作を実現する最初のデモとなる。
論文 参考訳(メタデータ) (2024-03-07T12:10:41Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。