論文の概要: Learning Video-Conditioned Policies for Unseen Manipulation Tasks
- arxiv url: http://arxiv.org/abs/2305.06289v1
- Date: Wed, 10 May 2023 16:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 12:13:55.498969
- Title: Learning Video-Conditioned Policies for Unseen Manipulation Tasks
- Title(参考訳): 非知覚操作タスクのためのビデオコンディショニングポリシーの学習
- Authors: Elliot Chane-Sane, Cordelia Schmid, Ivan Laptev
- Abstract要約: ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
- 参考スコア(独自算出の注目度): 83.2240629060453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to specify robot commands by a non-expert user is critical for
building generalist agents capable of solving a large variety of tasks. One
convenient way to specify the intended robot goal is by a video of a person
demonstrating the target task. While prior work typically aims to imitate human
demonstrations performed in robot environments, here we focus on a more
realistic and challenging setup with demonstrations recorded in natural and
diverse human environments. We propose Video-conditioned Policy learning (ViP),
a data-driven approach that maps human demonstrations of previously unseen
tasks to robot manipulation skills. To this end, we learn our policy to
generate appropriate actions given current scene observations and a video of
the target task. To encourage generalization to new tasks, we avoid particular
tasks during training and learn our policy from unlabelled robot trajectories
and corresponding robot videos. Both robot and human videos in our framework
are represented by video embeddings pre-trained for human action recognition.
At test time we first translate human videos to robot videos in the common
video embedding space, and then use resulting embeddings to condition our
policies. Notably, our approach enables robot control by human demonstrations
in a zero-shot manner, i.e., without using robot trajectories paired with human
instructions during training. We validate our approach on a set of challenging
multi-task robot manipulation environments and outperform state of the art. Our
method also demonstrates excellent performance in a new challenging zero-shot
setup where no paired data is used during training.
- Abstract(参考訳): 非専門家によってロボットコマンドを指定する能力は、様々なタスクを解くことができる汎用エージェントを構築する上で重要である。
目的とするロボットのゴールを特定するための便利な方法は、目標とするタスクを示す人のビデオである。
従来の作業は通常、ロボット環境で実行される人間のデモを模倣することを目的としていますが、ここでは、自然で多様な人間の環境で記録されたデモにより、より現実的で挑戦的なセットアップに焦点を当てます。
本研究では,これまで認識されていなかったタスクをロボット操作スキルにマッピングする,データ駆動型手法であるvideo-conditioned policy learning (vip)を提案する。
この目的のために,現在のシーンの観察と対象タスクのビデオから適切なアクションを生成するためのポリシーを学習する。
新しいタスクへの一般化を促進するために、トレーニング中の特定のタスクを回避し、ラベルなしのロボットトラジェクタと対応するロボットビデオからポリシーを学ぶ。
ロボットと人間の両方のビデオは、人間のアクション認識のために事前訓練されたビデオ埋め込みによって表現されます。
テスト時には、まず人間ビデオから一般的なビデオ埋め込み空間のロボットビデオに変換し、その結果の埋め込みを使ってポリシーを定めます。
特に,本手法は,訓練中に人間の指示と組み合わせたロボット軌道を使わずに,人間による実演によるロボット制御を可能にする。
われわれは,マルチタスクロボット操作環境の課題と,その技術面における性能を検証した。
また,本手法は,トレーニング中にペアデータを使用しない新たなゼロショットセットアップにおいて,優れた性能を示す。
関連論文リスト
- Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Learning by Watching: Physical Imitation of Manipulation Skills from
Human Videos [28.712673809577076]
本稿では,ロボット操作作業のための人間ビデオからの物理模倣手法を提案する。
人間のビデオをロボットドメインに翻訳し,教師なしのキーポイント検出を行う知覚モジュールを設計した。
リーチ、プッシュ、スライディング、コーヒー製造、引き出しの閉鎖を含む5つのロボット操作タスクに対するアプローチの有効性を評価します。
論文 参考訳(メタデータ) (2021-01-18T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。