論文の概要: RoboCLIP: One Demonstration is Enough to Learn Robot Policies
- arxiv url: http://arxiv.org/abs/2310.07899v1
- Date: Wed, 11 Oct 2023 21:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 13:45:21.431454
- Title: RoboCLIP: One Demonstration is Enough to Learn Robot Policies
- Title(参考訳): RoboCLIP:ロボット政策を学ぶには十分
- Authors: Sumedh A Sontakke, Jesse Zhang, S\'ebastien M. R. Arnold, Karl
Pertsch, Erdem B{\i}y{\i}k, Dorsa Sadigh, Chelsea Finn, Laurent Itti
- Abstract要約: RoboCLIPは、オンラインの模倣学習手法であり、ビデオデモの形式で1つのデモンストレーションまたはタスクのテキスト記述を使用して報酬を生成する。
RoboCLIPは、報酬生成のタスクを解決した人間のビデオや、同じデモやデプロイメントドメインを持つ必要を回避するなど、ドメイン外のデモも利用することができる。
- 参考スコア(独自算出の注目度): 72.24495908759967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward specification is a notoriously difficult problem in reinforcement
learning, requiring extensive expert supervision to design robust reward
functions. Imitation learning (IL) methods attempt to circumvent these problems
by utilizing expert demonstrations but typically require a large number of
in-domain expert demonstrations. Inspired by advances in the field of
Video-and-Language Models (VLMs), we present RoboCLIP, an online imitation
learning method that uses a single demonstration (overcoming the large data
requirement) in the form of a video demonstration or a textual description of
the task to generate rewards without manual reward function design.
Additionally, RoboCLIP can also utilize out-of-domain demonstrations, like
videos of humans solving the task for reward generation, circumventing the need
to have the same demonstration and deployment domains. RoboCLIP utilizes
pretrained VLMs without any finetuning for reward generation. Reinforcement
learning agents trained with RoboCLIP rewards demonstrate 2-3 times higher
zero-shot performance than competing imitation learning methods on downstream
robot manipulation tasks, doing so using only one video/text demonstration.
- Abstract(参考訳): リワード仕様は強化学習において非常に難しい問題であり、堅牢な報酬関数を設計するために広範な専門家の監督を必要とする。
シミュレーション学習(IL)手法は、専門家によるデモンストレーションを利用してこれらの問題を回避しようとするが、通常は多くのドメイン内の専門家によるデモンストレーションを必要とする。
本稿では,ビデオ・アンド・ランゲージ・モデル(VLM)の分野での進歩に触発されて,ビデオデモや手動報酬関数設計なしで報酬を生成するタスクのテキスト記述という形で,単一のデモンストレーション(大規模なデータ要求を克服する)を用いたオンライン模倣学習手法であるRoboCLIPを提案する。
さらに、RoboCLIPは、人間による報酬生成タスクの解決、同じデモンストレーションとデプロイメントドメインの必要性回避といった、ドメイン外のデモも利用することができる。
RoboCLIPは、報酬生成のための微調整なしで事前訓練されたVLMを使用する。
roboclipで訓練された強化学習エージェントは、下流のロボット操作タスクで競合する模倣学習方法よりも2-3倍高いゼロショット性能を示す。
関連論文リスト
- Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
本稿では、視覚言語モデル(VLM)によって形成される報酬について研究し、ロボット学習における報酬の密度を定義する。
自然言語記述によって指定された実世界の操作タスクにおいて、これらの報酬は自律的RLのサンプル効率を向上させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Augmented Reality Demonstrations for Scalable Robot Imitation Learning [25.026589453708347]
本稿では,実証収集のためのAR支援フレームワークについて述べる。
我々は、HoloLens 2.0のようなデバイスを使って、ロボットILのデモを作ることができる非ロボティスティックなユーザーに力を与えます。
従来の3つのロボットのタスク(リーチ、プッシュ、ピック・アンド・プレイス)で、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-20T18:30:12Z) - Large-Scale Actionless Video Pre-Training via Discrete Diffusion for
Efficient Policy Learning [73.69573252516761]
本稿では,人間のビデオにおける生成前訓練とアクションラベル付きロボットビデオのポリシー微調整を組み合わせた新しいフレームワークを提案する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - SWBT: Similarity Weighted Behavior Transformer with the Imperfect
Demonstration for Robotic Manipulation [32.78083518963342]
SWBT(Simisity Weighted Behavior Transformer)という新しいフレームワークを提案する。
SWBTは、環境との相互作用なしに、専門家と不完全なデモンストレーションの両方から効果的に学習する。
我々は、ロボット操作タスクのオフライン模倣学習環境に不完全なデモンストレーションを統合する試みを初めて行った。
論文 参考訳(メタデータ) (2024-01-17T04:15:56Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Learning Complicated Manipulation Skills via Deterministic Policy with
Limited Demonstrations [9.640594614636049]
深層強化学習はマニピュレータのポリシーを効率的に開発することができる。
実際に十分な高品質なデモを収集するのには時間がかかる。
人間のデモはロボットには適さないかもしれない。
論文 参考訳(メタデータ) (2023-03-29T05:56:44Z) - Learning Agile Skills via Adversarial Imitation of Rough Partial
Demonstrations [19.257876507104868]
アジャイルスキルの習得は,ロボティクスにおける大きな課題のひとつだ。
本稿では,部分的かつ物理的に互換性のない実演から報酬関数を推定するための生成的逆数法を提案する。
我々は、Wasserstein GANの定式化と、粗い情報と部分的な情報を入力とするデモからの遷移によって、堅牢で実証行動の模倣が可能なポリシーを抽出できることを示した。
論文 参考訳(メタデータ) (2022-06-23T13:34:11Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - SQUIRL: Robust and Efficient Learning from Video Demonstration of
Long-Horizon Robotic Manipulation Tasks [8.756012472587601]
深層強化学習(RL)は複雑な操作タスクを学習するために用いられる。
RLは、ロボットが大量の現実世界の経験を収集する必要がある。
SQUIRLは、単一のビデオデモしか持たない、新しいが関連するロングホライゾンタスクを実行する。
論文 参考訳(メタデータ) (2020-03-10T20:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。