論文の概要: One-Shot Imitation under Mismatched Execution
- arxiv url: http://arxiv.org/abs/2409.06615v4
- Date: Wed, 16 Oct 2024 02:19:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 22:05:05.674618
- Title: One-Shot Imitation under Mismatched Execution
- Title(参考訳): ミスマッチ実行時のワンショット模倣
- Authors: Kushal Kedia, Prithwish Dan, Angela Chao, Maximus Adrian Pace, Sanjiban Choudhury,
- Abstract要約: プロンプトとしての人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。
これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力のミスマッチの実行による重大な課題を呈する。
本稿では,人間とロボットのタスク実行を最適な輸送コストで自動調整する新しいフレームワークRHyMEを提案する。
- 参考スコア(独自算出の注目度): 7.060120660671016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human demonstrations as prompts are a powerful way to program robots to do long-horizon manipulation tasks. However, translating these demonstrations into robot-executable actions presents significant challenges due to execution mismatches in movement styles and physical capabilities. Existing methods either depend on human-robot paired data, which is infeasible to scale, or rely heavily on frame-level visual similarities that often break down in practice. To address these challenges, we propose RHyME, a novel framework that automatically aligns human and robot task executions using optimal transport costs. Given long-horizon robot demonstrations, RHyME synthesizes semantically equivalent human videos by retrieving and composing short-horizon human clips. This approach facilitates effective policy training without the need for paired data. RHyME successfully imitates a range of cross-embodiment demonstrators, both in simulation and with a real human hand, achieving over 50\% increase in task success compared to previous methods. We release our datasets and graphics at this https://portal.cs.cornell.edu/rhyme/.
- Abstract(参考訳): プロンプトとしての人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。
しかしながら、これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力における実行ミスマッチによる重大な課題を呈する。
既存の方法は、スケールが不可能な人間とロボットのペアデータに依存するか、あるいは実際に故障することが多いフレームレベルの視覚的類似性に大きく依存する。
これらの課題に対処するために、最適な輸送コストを用いて人間とロボットのタスク実行を自動的に調整する新しいフレームワークRHyMEを提案する。
ロングホライズンロボットのデモが与えられた後、RHyMEは短いホライズン人間のクリップを検索して合成することによって、意味的に等価な人間のビデオを生成する。
このアプローチは、ペアデータを必要としない効果的なポリシートレーニングを促進する。
RHyMEは、シミュレーションと実際の人手の両方で、様々なクロス・エボディメント・デモレータを模倣し、従来の方法に比べてタスク成功率が50%以上向上した。
データセットとグラフィックは、このhttps://portal.cs.cornell.edu/rhyme/で公開しています。
関連論文リスト
- DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning [42.88605563822155]
本稿では,人間の手による人型ロボットの人体実験からトラジェクトリを合成する大規模自動データ生成システムを提案する。
私たちは、たった60のソースの人間デモから、これらのタスク全体で21Kのデモを生成します。
また、実世界のヒューマノイド缶ソートタスクに、実世界のシミュレート・トゥ・リアルパイプラインを配置する。
論文 参考訳(メタデータ) (2024-10-31T17:48:45Z) - HRP: Human Affordances for Robotic Pre-Training [15.92416819748365]
本稿では,手,物,接触の事前学習のためのフレームワークを提案する。
実世界の5つのタスクにおいて、この空き時間事前学習がパフォーマンスを最低15%向上させることを実験的に実証した(3000以上のロボット試験を用いて)。
論文 参考訳(メタデータ) (2024-07-26T17:59:52Z) - HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - SynH2R: Synthesizing Hand-Object Motions for Learning Human-to-Robot
Handovers [37.49601724575655]
視覚に基づく人間とロボットのハンドオーバは、人間とロボットのインタラクションにおいて重要かつ困難なタスクである。
本稿では,ロボットの訓練に適した人間のつかみ動作を生成するためのフレームワークを提案する。
これにより、以前の作業よりも100倍多くのオブジェクトで、総合的なトレーニングとテストデータを生成することができます。
論文 参考訳(メタデータ) (2023-11-09T18:57:02Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Cross-Domain Transfer via Semantic Skill Imitation [49.83150463391275]
本稿では、例えば人間ビデオなどのソースドメインからのデモンストレーションを利用して、強化学習(RL)を高速化する意味模倣手法を提案する。
関節速度のような低レベルな動作を模倣する代わりに、我々のアプローチは「電子レンジを開く」や「ストーブを回す」といった、実証された意味的なスキルのシーケンスを模倣する。
論文 参考訳(メタデータ) (2022-12-14T18:46:14Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。