論文の概要: Robotic Offline RL from Internet Videos via Value-Function Pre-Training
- arxiv url: http://arxiv.org/abs/2309.13041v1
- Date: Fri, 22 Sep 2023 17:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 13:31:21.652866
- Title: Robotic Offline RL from Internet Videos via Value-Function Pre-Training
- Title(参考訳): 価値表現によるインターネットビデオからのロボットオフラインRL
- Authors: Chethan Bhateja, Derek Guo, Dibya Ghosh, Anikait Singh, Manan Tomar,
Quan Vuong, Yevgen Chebotar, Sergey Levine, Aviral Kumar
- Abstract要約: ロボットオフラインRLにおける大規模ビデオデータセットを活用するシステムを開発した。
ビデオデータセットにおける価値学習は、下流のロボットオフラインRLに対して、他のアプローチよりも理解しやすい表現を学習することを示す。
- 参考スコア(独自算出の注目度): 67.44673316943475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training on Internet data has proven to be a key ingredient for broad
generalization in many modern ML systems. What would it take to enable such
capabilities in robotic reinforcement learning (RL)? Offline RL methods, which
learn from datasets of robot experience, offer one way to leverage prior data
into the robotic learning pipeline. However, these methods have a "type
mismatch" with video data (such as Ego4D), the largest prior datasets available
for robotics, since video offers observation-only experience without the action
or reward annotations needed for RL methods. In this paper, we develop a system
for leveraging large-scale human video datasets in robotic offline RL, based
entirely on learning value functions via temporal-difference learning. We show
that value learning on video datasets learns representations that are more
conducive to downstream robotic offline RL than other approaches for learning
from video data. Our system, called V-PTR, combines the benefits of
pre-training on video data with robotic offline RL approaches that train on
diverse robot data, resulting in value functions and policies for manipulation
tasks that perform better, act robustly, and generalize broadly. On several
manipulation tasks on a real WidowX robot, our framework produces policies that
greatly improve over prior methods. Our video and additional details can be
found at https://dibyaghosh.com/vptr/
- Abstract(参考訳): インターネットデータの事前学習は、多くの現代のMLシステムにおいて、広範な一般化の鍵となる要素であることが証明されている。
ロボット強化学習(RL)でそのような機能を実現するには、何が必要か?
ロボット体験のデータセットから学習するオフラインRLメソッドは、ロボット学習パイプラインに事前データを活用するための1つの方法を提供する。
しかし、これらの手法は、ロボティクスで利用可能な最大の先行データセットであるビデオデータ(ego4dなど)と「タイプミスマッチ」を持っている。
本稿では,時間差学習による学習価値関数に基づくロボットオフラインRLにおける大規模人間のビデオデータセットの活用システムを開発する。
ビデオデータセットにおける価値学習は,ビデオデータから学習する他の手法よりも下流のロボット・オフラインrlに通じる表現を学習する。
我々のシステムは、V-PTRと呼ばれ、ビデオデータに対する事前トレーニングの利点と、多様なロボットデータをトレーニングするロボットオフラインRLアプローチを組み合わせることで、より良いパフォーマンス、堅牢な動作、広範囲に一般化するタスクに対する価値関数とポリシーをもたらす。
実際のWidowXロボット上での操作タスクにおいて、我々のフレームワークは従来の方法よりも大幅に改善されたポリシーを生成する。
ビデオと追加情報はhttps://dibyaghosh.com/vptr/で確認できます。
関連論文リスト
- Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Real World Offline Reinforcement Learning with Realistic Data Source [33.7474988142367]
オフライン強化学習(ORL)は、任意の事前生成経験から学習する能力があるため、ロボット学習に非常に有望である。
現在のORLベンチマークは、ほぼ完全にシミュレーションされており、オンラインRLエージェントのリプレイバッファや、サブ最適トラジェクトリのような、探索されたデータセットを使用している。
本研究(Real-ORL)では、密接に関連するタスクの安全な操作から収集されたデータは、現実のロボット学習のためのより実用的なデータソースであると仮定する。
論文 参考訳(メタデータ) (2022-10-12T17:57:05Z) - Pre-Training for Robots: Offline RL Enables Learning New Tasks from a
Handful of Trials [97.95400776235736]
新しいタスクを効果的に学習しようとするオフラインRLに基づくフレームワークを提案する。
既存のロボットデータセットの事前トレーニングと、新しいタスクの迅速な微調整と、最大10のデモを組み合わせたものだ。
我々の知る限り、PTRは本物のWidowXロボットで新しいドメインで新しいタスクを学習する最初のRL手法である。
論文 参考訳(メタデータ) (2022-10-11T06:30:53Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。