論文の概要: Asynchronous Reinforcement Learning for Real-Time Control of Physical
Robots
- arxiv url: http://arxiv.org/abs/2203.12759v1
- Date: Wed, 23 Mar 2022 23:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 01:30:38.912686
- Title: Asynchronous Reinforcement Learning for Real-Time Control of Physical
Robots
- Title(参考訳): ロボットのリアルタイム制御のための非同期強化学習
- Authors: Yufeng Yuan, Rupam Mahmood
- Abstract要約: 学習更新が高価である場合には、逐次学習のパフォーマンスが低下し、非同期学習により大幅に向上することを示す。
われわれのシステムは2時間以内に、リアルタイムで学習し、2時間以内にピクセルから視覚的目標に到達し、追跡する。
- 参考スコア(独自算出の注目度): 2.3061446605472558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An oft-ignored challenge of real-world reinforcement learning is that the
real world does not pause when agents make learning updates. As standard
simulated environments do not address this real-time aspect of learning, most
available implementations of RL algorithms process environment interactions and
learning updates sequentially. As a consequence, when such implementations are
deployed in the real world, they may make decisions based on significantly
delayed observations and not act responsively. Asynchronous learning has been
proposed to solve this issue, but no systematic comparison between sequential
and asynchronous reinforcement learning was conducted using real-world
environments. In this work, we set up two vision-based tasks with a robotic
arm, implement an asynchronous learning system that extends a previous
architecture, and compare sequential and asynchronous reinforcement learning
across different action cycle times, sensory data dimensions, and mini-batch
sizes. Our experiments show that when the time cost of learning updates
increases, the action cycle time in sequential implementation could grow
excessively long, while the asynchronous implementation can always maintain an
appropriate action cycle time. Consequently, when learning updates are
expensive, the performance of sequential learning diminishes and is
outperformed by asynchronous learning by a substantial margin. Our system
learns in real-time to reach and track visual targets from pixels within two
hours of experience and does so directly using real robots, learning completely
from scratch.
- Abstract(参考訳): 現実世界の強化学習の無知な課題は、エージェントが学習更新を行うと、現実世界が停止しないことだ。
標準的なシミュレーション環境は学習のこのリアルタイムな側面に対処しないため、RLアルゴリズムの最も利用可能な実装は環境相互作用と学習更新を逐次処理する。
その結果、そのような実装が現実世界にデプロイされると、非常に遅延した観察に基づいて決定を下し、応答的に動作しない。
この問題を解決するために非同期学習が提案されているが,実環境を用いた逐次強化学習と非同期強化学習の系統的な比較は行われていない。
本研究では,ロボットアームを用いた2つの視覚ベースのタスクを設定し,従来のアーキテクチャを拡張した非同期学習システムを実装し,異なる動作サイクル時間,知覚データ次元,ミニバッチサイズの逐次的および非同期強化学習を比較した。
我々の実験は、学習の時間コストが上昇すると、シーケンシャルな実装におけるアクションサイクル時間が過度に長くなり、非同期な実装は常に適切なアクションサイクル時間を維持することができることを示した。
したがって、学習更新が高価である場合、逐次学習の性能は低下し、非同期学習によってかなりのマージンで上回る。
われわれのシステムは、リアルタイムで学習し、2時間以内にピクセルから視覚目標に到達し追跡し、実際のロボットを直接使用し、完全にスクラッチから学習する。
関連論文リスト
- Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。
本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。
我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文 参考訳(メタデータ) (2022-04-12T08:32:26Z) - Learning Without a Global Clock: Asynchronous Learning in a
Physics-Driven Learning Network [1.3124513975412255]
学習過程の非同期化は、理想的なシミュレーションにおいて、様々なタスクのパフォーマンスを劣化させるものではないことを示す。
我々は、勾配降下における非同期性とミニバッチの類似性を示し、それらが学習過程に類似した影響を示す。
論文 参考訳(メタデータ) (2022-01-10T05:38:01Z) - Multi-task Learning with Attention for End-to-end Autonomous Driving [5.612688040565424]
条件模倣学習フレームワークにおける新しいマルチタスク注意認識ネットワークを提案する。
これにより、標準ベンチマークの成功率を向上させるだけでなく、トラフィックライトに反応する能力も向上します。
論文 参考訳(メタデータ) (2021-04-21T20:34:57Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning
Systems [0.8223798883838329]
本研究では,人間同士の相互作用を強化学習ループに組み込む方法について検討する。
その結果,人間同士の相互作用に基づいて学習した報奨信号は,強化学習アルゴリズムの学習速度を加速させることがわかった。
論文 参考訳(メタデータ) (2020-08-30T17:28:18Z) - DREAM Architecture: a Developmental Approach to Open-Ended Learning in
Robotics [44.62475518267084]
我々は、この再記述プロセス段階を段階的にブートストラップし、適切なモチベーションを持った新しい状態表現を構築し、獲得した知識をドメインやタスク、さらにはロボット間で伝達するための発達的認知アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-05-13T09:29:40Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。