論文の概要: Reinforcement Learning with Videos: Combining Offline Observations with
Interaction
- arxiv url: http://arxiv.org/abs/2011.06507v2
- Date: Thu, 4 Nov 2021 20:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 06:13:44.706259
- Title: Reinforcement Learning with Videos: Combining Offline Observations with
Interaction
- Title(参考訳): ビデオによる強化学習: オフライン観察とインタラクションを組み合わせる
- Authors: Karl Schmeckpeper, Oleh Rybkin, Kostas Daniilidis, Sergey Levine,
Chelsea Finn
- Abstract要約: 強化学習は、ロボットが経験からスキルを得るための強力なフレームワークである。
人間のビデオは、広くて興味深い体験のソースとしてすぐに手に入る。
ビデオによる強化学習のためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 151.73346150068866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is a powerful framework for robots to acquire skills
from experience, but often requires a substantial amount of online data
collection. As a result, it is difficult to collect sufficiently diverse
experiences that are needed for robots to generalize broadly. Videos of humans,
on the other hand, are a readily available source of broad and interesting
experiences. In this paper, we consider the question: can we perform
reinforcement learning directly on experience collected by humans? This problem
is particularly difficult, as such videos are not annotated with actions and
exhibit substantial visual domain shift relative to the robot's embodiment. To
address these challenges, we propose a framework for reinforcement learning
with videos (RLV). RLV learns a policy and value function using experience
collected by humans in combination with data collected by robots. In our
experiments, we find that RLV is able to leverage such videos to learn
challenging vision-based skills with less than half as many samples as RL
methods that learn from scratch.
- Abstract(参考訳): 強化学習は、ロボットが経験からスキルを取得するための強力なフレームワークであるが、多くの場合、大量のオンラインデータ収集を必要とする。
その結果、ロボットが広く普及するのに必要な多様な経験を十分に集めることは困難である。
一方、人間のビデオは、広くて興味深い体験のソースとしてすぐに手に入る。
本稿では,人間によって収集された経験に基づいて,強化学習を行うことができるか?
このようなビデオは動作に注釈を付けず、ロボットの体格に対してかなりの視覚領域シフトを示すため、この問題は特に困難である。
そこで本研究では,ビデオを用いた強化学習(rlv)の枠組みを提案する。
RLVは、人間が収集した経験とロボットが収集したデータを組み合わせて、ポリシーと価値関数を学ぶ。
我々の実験では、RLVはそのようなビデオを活用して、スクラッチから学習するRL法の半分未満のサンプルで、挑戦的な視覚ベースのスキルを学習できることがわかった。
関連論文リスト
- VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - Towards Generalist Robot Learning from Internet Video: A Survey [56.621902345314645]
ディープラーニングを巨大なインターネットスクレイプデータセットにスケールすることで、自然言語処理と視覚的理解と生成において、極めて一般的な機能を実現している。
データはロボット工学で収集するには不十分で費用がかかる。これは、他の領域で観測される能力の一般性に合わせるために、ロボット学習が苦労しているのである。
Learning from Videos (LfV)メソッドは、従来のロボットデータを大規模なインターネットスクラッドビデオデータセットで拡張することで、このデータボトルネックに対処しようとしている。
論文 参考訳(メタデータ) (2024-04-30T15:57:41Z) - Learning by Watching: A Review of Video-based Learning Approaches for
Robot Manipulation [0.0]
最近の研究は、オンラインで公開されている豊富な動画を受動的に視聴することで、学習操作のスキルを探求している。
本調査では,映像特徴表現学習技術,物価理解,3次元ハンド・ボディ・モデリング,大規模ロボット資源などの基礎を概観する。
ロボット操作の一般化とサンプル効率を高めるために,大規模な人的映像を観察することのみから学習する方法を論じる。
論文 参考訳(メタデータ) (2024-02-11T08:41:42Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Towards a Sample Efficient Reinforcement Learning Pipeline for Vision
Based Robotics [0.0]
我々は,ロボットアームの訓練に要する時間を制限するために,パイプラインをできるだけ効率的に組み立てることによって,スクラッチからボールに到達するための時間を制限する方法について検討した。
パイプラインは、RGBビデオから関連する情報をComputer Visionアルゴリズムでキャプチャする、という2つの部分に分けられる。
もうひとつは、Deep Reinforcement Learning(深層強化学習)アルゴリズムを使って、ロボットアームが自分の前にあるターゲットに到達できるように、より速くトレーニングする方法だ。
論文 参考訳(メタデータ) (2021-05-20T13:13:01Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。