論文の概要: SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2401.16013v3
- Date: Tue, 13 Feb 2024 04:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:46:19.500445
- Title: SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning
- Title(参考訳): SERL: サンプル効率の良いロボット強化学習用ソフトウェアスイート
- Authors: Jianlan Luo, Zheyuan Hu, Charles Xu, You Liang Tan, Jacob Berg, Archit
Sharma, Stefan Schaal, Chelsea Finn, Abhishek Gupta, Sergey Levine
- Abstract要約: 筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
- 参考スコア(独自算出の注目度): 85.21378553454672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, significant progress has been made in the field of robotic
reinforcement learning (RL), enabling methods that handle complex image
observations, train in the real world, and incorporate auxiliary data, such as
demonstrations and prior experience. However, despite these advances, robotic
RL remains hard to use. It is acknowledged among practitioners that the
particular implementation details of these algorithms are often just as
important (if not more so) for performance as the choice of algorithm. We posit
that a significant challenge to widespread adoption of robotic RL, as well as
further development of robotic RL methods, is the comparative inaccessibility
of such methods. To address this challenge, we developed a carefully
implemented library containing a sample efficient off-policy deep RL method,
together with methods for computing rewards and resetting the environment, a
high-quality controller for a widely-adopted robot, and a number of challenging
example tasks. We provide this library as a resource for the community,
describe its design choices, and present experimental results. Perhaps
surprisingly, we find that our implementation can achieve very efficient
learning, acquiring policies for PCB board assembly, cable routing, and object
relocation between 25 to 50 minutes of training per policy on average,
improving over state-of-the-art results reported for similar tasks in the
literature. These policies achieve perfect or near-perfect success rates,
extreme robustness even under perturbations, and exhibit emergent recovery and
correction behaviors. We hope that these promising results and our high-quality
open-source implementation will provide a tool for the robotics community to
facilitate further developments in robotic RL. Our code, documentation, and
videos can be found at https://serl-robot.github.io/
- Abstract(参考訳): 近年、ロボット強化学習(RL)の分野で大きな進歩を遂げており、複雑な画像観察、現実世界での訓練、デモや先行経験などの補助的なデータの導入を可能にしている。
しかし、これらの進歩にもかかわらず、ロボットRLの使用は困難である。
実践者の間では、これらのアルゴリズムの特定の実装の詳細は、しばしばアルゴリズムの選択と同じくらいのパフォーマンスにおいて重要である(そうでないとしても)。
我々は,ロボットRLの普及と,ロボットRL法のさらなる発展に対する重要な課題が,そのような手法の比較不能性であると考えている。
この課題に対処するため,我々は,効率のよいオフポリシー深層rl法と,報奨計算と環境再設定の手法,広く採用されているロボットのための高品質なコントローラ,課題の多い例タスクを含む,注意深く実装されたライブラリを開発した。
このライブラリをコミュニティのリソースとして提供し,その設計選択を説明し,実験結果を示す。
意外なことに、我々の実装は、非常に効率的な学習を実現し、PCBボードアセンブリ、ケーブルルーティング、オブジェクト移動のポリシーを平均25分から50分の間に取得し、文献に類似したタスクに対して報告された最先端の結果よりも改善できる。
これらの政策は完璧またはほぼ完全な成功率を達成し、摂動下でも極端な堅牢性を実現し、創発的な回復と修正行動を示す。
これらの有望な成果と私たちの高品質なオープンソース実装が、ロボティクスコミュニティにとってロボットRLのさらなる発展を促進するツールになることを期待しています。
私たちのコード、ドキュメンテーション、ビデオはhttps://serl-robot.github.io/で確認できます。
関連論文リスト
- Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement
Learning [27.00483962026472]
現実的な四足歩行データセットにおける11のオフライン強化学習アルゴリズムをベンチマークした。
実験の結果,ORLアルゴリズムはモデルフリーのRLに比べて競争性能がよいことがわかった。
提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能をテスト・評価するための開発プラットフォームとして機能する。
論文 参考訳(メタデータ) (2023-09-13T13:18:29Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Accelerating Robot Learning of Contact-Rich Manipulations: A Curriculum
Learning Study [4.045850174820418]
本稿では,Domain Randomization(DR)と組み合わせたカリキュラム学習に基づく,コンタクトリッチな操作タスクのロボット学習の高速化に関する研究を行う。
挿入タスクのような位置制御ロボットによる複雑な産業組み立てタスクに対処する。
また,おもちゃのタスクを用いたシミュレーションでのみトレーニングを行う場合においても,現実のロボットに伝達可能なポリシーを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T11:08:39Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。