論文の概要: R+X: Retrieval and Execution from Everyday Human Videos
- arxiv url: http://arxiv.org/abs/2407.12957v1
- Date: Wed, 17 Jul 2024 18:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:33:23.305545
- Title: R+X: Retrieval and Execution from Everyday Human Videos
- Title(参考訳): R+X:毎日の人間ビデオの検索と実行
- Authors: Georgios Papagiannis, Norman Di Palo, Pietro Vitiello, Edward Johns,
- Abstract要約: R+Xは、ロボットが日々の仕事をしている人間の、長く、ひそかで、一人称的なビデオからスキルを学ぶことができるフレームワークである。
人間から言語コマンドが与えられた後、R+Xはまず、関連する振る舞いを含む短いビデオクリップを検索し、その振る舞いにコンテキスト内模倣学習法を条件付けてそのスキルを実行する。
実験の結果、R+Xは人間の動画をロバストなロボットのスキルに翻訳することに成功し、R+Xはいくつかの方法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 10.217746618286428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present R+X, a framework which enables robots to learn skills from long, unlabelled, first-person videos of humans performing everyday tasks. Given a language command from a human, R+X first retrieves short video clips containing relevant behaviour, and then executes the skill by conditioning an in-context imitation learning method on this behaviour. By leveraging a Vision Language Model (VLM) for retrieval, R+X does not require any manual annotation of the videos, and by leveraging in-context learning for execution, robots can perform commanded skills immediately, without requiring a period of training on the retrieved videos. Experiments studying a range of everyday household tasks show that R+X succeeds at translating unlabelled human videos into robust robot skills, and that R+X outperforms several recent alternative methods. Videos are available at https://www.robot-learning.uk/r-plus-x.
- Abstract(参考訳): R+Xはロボットが日々のタスクをこなす様子を、長く、ひそかに、一人称ビデオから学べるフレームワークである。
人間から言語コマンドが与えられた後、R+Xはまず、関連する振る舞いを含む短いビデオクリップを検索し、その振る舞いにコンテキスト内模倣学習法を条件付けてそのスキルを実行する。
検索に視覚言語モデル(VLM)を活用することにより、R+Xはビデオの手動アノテーションを一切必要とせず、実行にコンテキスト内学習を活用することにより、検索したビデオのトレーニング期間を必要とせずに、ロボットは即座に指揮スキルを実行することができる。
日常的な日常的なタスクを幅広く研究した結果、R+Xは人間の動画をロバストなロボットのスキルに翻訳することに成功し、R+Xはいくつかの方法に勝っていることが判明した。
ビデオはhttps://www.robot-learning.uk/r-plus-x.comで公開されている。
関連論文リスト
- Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Robotic Offline RL from Internet Videos via Value-Function Pre-Training [67.44673316943475]
ロボットオフラインRLにおける大規模ビデオデータセットを活用するシステムを開発した。
ビデオデータセットにおける価値学習は、下流のロボットオフラインRLに対して、他のアプローチよりも理解しやすい表現を学習することを示す。
論文 参考訳(メタデータ) (2023-09-22T17:59:14Z) - XSkill: Cross Embodiment Skill Discovery [41.624343257852146]
XSkillは、非ラベルの人間とロボットの操作ビデオから純粋に、スキルプロトタイプと呼ばれるクロスボデーメント表現を発見する模倣学習フレームワークである。
シミュレーションと実環境における実験により,見知らぬタスクのスキル伝達と構成を容易にする技術プロトタイプが発見された。
論文 参考訳(メタデータ) (2023-07-19T12:51:28Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - VideoDex: Learning Dexterity from Internet Videos [27.49510986378025]
私たちは、人間の手を使ったインターネットビデオという、現実世界での体験として、次のベストなものを活用することを提案する。
視覚的特徴などの視覚的先行情報は、しばしばビデオから学習されるが、ビデオからのより多くの情報は、より強力な先行として利用することができる。
我々は、人間のビデオデータセットから視覚的、行動的、身体的優先事項を活用する学習アルゴリズム、VideoDexを構築し、ロボットの振る舞いをガイドする。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。