論文の概要: A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2309.16718v1
- Date: Wed, 13 Sep 2023 13:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 05:48:11.501620
- Title: A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習のための実世界四足歩行ベンチマーク
- Authors: Hongyin Zhang, Shuyu Yang and Donglin Wang
- Abstract要約: 現実的な四足歩行データセットにおける11のオフライン強化学習アルゴリズムをベンチマークした。
実験の結果,ORLアルゴリズムはモデルフリーのRLに比べて競争性能がよいことがわかった。
提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能をテスト・評価するための開発プラットフォームとして機能する。
- 参考スコア(独自算出の注目度): 27.00483962026472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online reinforcement learning (RL) methods are often data-inefficient or
unreliable, making them difficult to train on real robotic hardware, especially
quadruped robots. Learning robotic tasks from pre-collected data is a promising
direction. Meanwhile, agile and stable legged robotic locomotion remains an
open question in their general form. Offline reinforcement learning (ORL) has
the potential to make breakthroughs in this challenging field, but its current
bottleneck lies in the lack of diverse datasets for challenging realistic
tasks. To facilitate the development of ORL, we benchmarked 11 ORL algorithms
in the realistic quadrupedal locomotion dataset. Such dataset is collected by
the classic model predictive control (MPC) method, rather than the model-free
online RL method commonly used by previous benchmarks. Extensive experimental
results show that the best-performing ORL algorithms can achieve competitive
performance compared with the model-free RL, and even surpass it in some tasks.
However, there is still a gap between the learning-based methods and MPC,
especially in terms of stability and rapid adaptation. Our proposed benchmark
will serve as a development platform for testing and evaluating the performance
of ORL algorithms in real-world legged locomotion tasks.
- Abstract(参考訳): オンライン強化学習(RL)法は、しばしばデータ非効率または信頼性が低いため、実際のロボットハードウェア、特に四足歩行ロボットのトレーニングが困難である。
事前に収集されたデータからロボットタスクを学ぶことは、有望な方向だ。
一方、アジャイルで安定した足のロボットの移動は、一般的な形でのオープンな疑問である。
オフライン強化学習(orl)は、この困難な分野でブレークスルーを起こす可能性があるが、現在のボトルネックは、現実的なタスクに挑戦するための多様なデータセットの欠如にある。
ORLの開発を容易にするため,現実的な四足歩行データセットを用いて11のORLアルゴリズムをベンチマークした。
このようなデータセットは、従来のベンチマークでよく使われるモデルフリーオンラインRL法ではなく、古典的モデル予測制御(MPC)法によって収集される。
実験結果から,ORLアルゴリズムはモデルフリーのRLよりも高い性能を達成でき,性能が向上することを示した。
しかし、学習に基づく手法とMPCの間には、特に安定性と迅速な適応の観点からはまだギャップがある。
提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能試験と評価のための開発プラットフォームとして機能する。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Combining model-predictive control and predictive reinforcement learning
for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文 参考訳(メタデータ) (2023-07-15T09:22:37Z) - Real World Offline Reinforcement Learning with Realistic Data Source [33.7474988142367]
オフライン強化学習(ORL)は、任意の事前生成経験から学習する能力があるため、ロボット学習に非常に有望である。
現在のORLベンチマークは、ほぼ完全にシミュレーションされており、オンラインRLエージェントのリプレイバッファや、サブ最適トラジェクトリのような、探索されたデータセットを使用している。
本研究(Real-ORL)では、密接に関連するタスクの安全な操作から収集されたデータは、現実のロボット学習のためのより実用的なデータソースであると仮定する。
論文 参考訳(メタデータ) (2022-10-12T17:57:05Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。