論文の概要: PI-ARS: Accelerating Evolution-Learned Visual-Locomotion with Predictive
Information Representations
- arxiv url: http://arxiv.org/abs/2207.13224v1
- Date: Wed, 27 Jul 2022 00:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:11:03.505499
- Title: PI-ARS: Accelerating Evolution-Learned Visual-Locomotion with Predictive
Information Representations
- Title(参考訳): PI-ARS:予測情報表現による進化学習型視覚移動の高速化
- Authors: Kuang-Huei Lee, Ofir Nachum, Tingnan Zhang, Sergio Guadarrama, Jie
Tan, Wenhao Yu
- Abstract要約: 進化戦略(ES)アルゴリズムは複雑なロボット制御ポリシーのトレーニングにおいて有望な結果を示している。
PI-ARSは、勾配に基づく表現学習技術、予測情報(PI)と勾配のないESアルゴリズム、拡張ランダム探索(ARS)を組み合わせた。
PI-ARS は ARS ベースラインに比べて学習効率と性能が有意に向上していることを示す。
- 参考スコア(独自算出の注目度): 32.37414300338581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evolution Strategy (ES) algorithms have shown promising results in training
complex robotic control policies due to their massive parallelism capability,
simple implementation, effective parameter-space exploration, and fast training
time. However, a key limitation of ES is its scalability to large capacity
models, including modern neural network architectures. In this work, we develop
Predictive Information Augmented Random Search (PI-ARS) to mitigate this
limitation by leveraging recent advancements in representation learning to
reduce the parameter search space for ES. Namely, PI-ARS combines a
gradient-based representation learning technique, Predictive Information (PI),
with a gradient-free ES algorithm, Augmented Random Search (ARS), to train
policies that can process complex robot sensory inputs and handle highly
nonlinear robot dynamics. We evaluate PI-ARS on a set of challenging
visual-locomotion tasks where a quadruped robot needs to walk on uneven
stepping stones, quincuncial piles, and moving platforms, as well as to
complete an indoor navigation task. Across all tasks, PI-ARS demonstrates
significantly better learning efficiency and performance compared to the ARS
baseline. We further validate our algorithm by demonstrating that the learned
policies can successfully transfer to a real quadruped robot, for example,
achieving a 100% success rate on the real-world stepping stone environment,
dramatically improving prior results achieving 40% success.
- Abstract(参考訳): 進化戦略(ES)アルゴリズムは、巨大な並列処理能力、単純な実装、効果的なパラメータ空間探索、高速なトレーニング時間による複雑なロボット制御ポリシーのトレーニングにおいて有望な結果を示している。
しかし、ESの重要な制限は、現代のニューラルネットワークアーキテクチャを含む大容量モデルへのスケーラビリティである。
本研究では,予測情報拡張ランダム探索(PI-ARS)を開発し,近年の表現学習の進歩を活用して,ESのパラメータ探索スペースを削減することにより,この制限を緩和する。
PI-ARSは、勾配に基づく表現学習技術である予測情報(PI)と、勾配のないESアルゴリズムであるAugmented Random Search(ARS)を組み合わせて、複雑なロボットの感覚入力を処理し、高非線形なロボットのダイナミクスを処理できるポリシーを訓練する。
そこで我々は,四足歩行ロボットが不均一な踏み石,五足歩行台,移動プラットフォームの上を歩行し,屋内ナビゲーションタスクを完了させるための課題として,pi-arを評価する。
全てのタスクにおいて、PI-ARSはARSベースラインに比べて学習効率と性能が大幅に向上している。
さらに,実世界のステッピングストーン環境において100%の成功率を達成し,事前評価を40%の成功を収めるなど,学習した方針が実四足ロボットにうまく移行できることを実証し,アルゴリズムの検証を行った。
関連論文リスト
- Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning
During Deployment [25.186525630548356]
Siriusは、人間とロボットが共同作業を行うための、原則化されたフレームワークである。
部分的に自律的なロボットは、意思決定の大部分を確実に行うことを任務としている。
タスク実行から収集したデータに対するポリシーの性能を改善するための新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-15T18:53:39Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。