論文の概要: Real World Offline Reinforcement Learning with Realistic Data Source
- arxiv url: http://arxiv.org/abs/2210.06479v1
- Date: Wed, 12 Oct 2022 17:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 17:28:37.233718
- Title: Real World Offline Reinforcement Learning with Realistic Data Source
- Title(参考訳): 実データを用いた実世界のオフライン強化学習
- Authors: Gaoyue Zhou, Liyiming Ke, Siddhartha Srinivasa, Abhinav Gupta, Aravind
Rajeswaran, Vikash Kumar
- Abstract要約: オフライン強化学習(ORL)は、任意の事前生成経験から学習する能力があるため、ロボット学習に非常に有望である。
現在のORLベンチマークは、ほぼ完全にシミュレーションされており、オンラインRLエージェントのリプレイバッファや、サブ最適トラジェクトリのような、探索されたデータセットを使用している。
本研究(Real-ORL)では、密接に関連するタスクの安全な操作から収集されたデータは、現実のロボット学習のためのより実用的なデータソースであると仮定する。
- 参考スコア(独自算出の注目度): 33.7474988142367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (ORL) holds great promise for robot learning
due to its ability to learn from arbitrary pre-generated experience. However,
current ORL benchmarks are almost entirely in simulation and utilize contrived
datasets like replay buffers of online RL agents or sub-optimal trajectories,
and thus hold limited relevance for real-world robotics. In this work
(Real-ORL), we posit that data collected from safe operations of closely
related tasks are more practical data sources for real-world robot learning.
Under these settings, we perform an extensive (6500+ trajectories collected
over 800+ robot hours and 270+ human labor hour) empirical study evaluating
generalization and transfer capabilities of representative ORL methods on four
real-world tabletop manipulation tasks. Our study finds that ORL and imitation
learning prefer different action spaces, and that ORL algorithms can generalize
from leveraging offline heterogeneous data sources and outperform imitation
learning. We release our dataset and implementations at URL:
https://sites.google.com/view/real-orl
- Abstract(参考訳): オフライン強化学習(ORL)は、任意の事前生成経験から学習できることから、ロボット学習に大いに期待できる。
しかし、現在のorlベンチマークはほぼ完全にシミュレーション中であり、オンラインrlエージェントのリプレイバッファやサブオプティカルトラジェクタのようなデータセットを利用しており、実世界のロボティクスには限定的な関連性を持っている。
本研究(real-orl)では,密接なタスクの安全操作から収集したデータは,実世界のロボット学習においてより実用的なデータ源であることを示す。
これらの状況下では,4つの実世界のテーブルトップ操作タスクにおける代表orl法の一般化と伝達能力を評価する,800時間以上のロボット時間と270時間以上の人的作業時間という,広範な(6500以上のトラジェクタを収集した)経験的研究を行う。
本研究は,orlと模倣学習が異なる行動空間を好むこと,orlアルゴリズムがオフラインの異種データソースを活用すること,模倣学習を上回ることから一般化できることを見出した。
データセットと実装をURLでリリースします。
関連論文リスト
- Robotic Offline RL from Internet Videos via Value-Function Pre-Training [67.44673316943475]
ロボットオフラインRLにおける大規模ビデオデータセットを活用するシステムを開発した。
ビデオデータセットにおける価値学習は、下流のロボットオフラインRLに対して、他のアプローチよりも理解しやすい表現を学習することを示す。
論文 参考訳(メタデータ) (2023-09-22T17:59:14Z) - A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement
Learning [27.00483962026472]
現実的な四足歩行データセットにおける11のオフライン強化学習アルゴリズムをベンチマークした。
実験の結果,ORLアルゴリズムはモデルフリーのRLに比べて競争性能がよいことがわかった。
提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能をテスト・評価するための開発プラットフォームとして機能する。
論文 参考訳(メタデータ) (2023-09-13T13:18:29Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Robotic Surgery With Lean Reinforcement Learning [0.8258451067861933]
da vinciスキルシミュレータへの強化学習サポートの追加について述べる。
画像または状態データを使用して、シミュレータ環境でサブタスクを実行するようRLベースのエージェントに教えます。
ハイブリッドバッチ学習(HBL)と呼ばれるシンプルな実装システムを用いてRLのサンプル非効率性に取り組む。
論文 参考訳(メタデータ) (2021-05-03T16:52:26Z) - S4RL: Surprisingly Simple Self-Supervision for Offline Reinforcement
Learning [28.947071041811586]
オフライン強化学習は、インタラクションなしで大規模なデータセットからポリシーを学ぶことを提案する。
現在のアルゴリズムは、トレーニング対象のデータセットに過度に適合し、デプロイ時に環境への不適切な分散一般化を実行する。
本稿では,環境にデプロイした場合の一般化と補間に優れた値関数を学習するために,状態からのデータ拡張を利用する,驚くほど単純な自己スーパービジョンアルゴリズム(s4rl)を提案する。
論文 参考訳(メタデータ) (2021-03-10T20:13:21Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。