論文の概要: Podracer architectures for scalable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2104.06272v1
- Date: Tue, 13 Apr 2021 15:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:23:06.093506
- Title: Podracer architectures for scalable Reinforcement Learning
- Title(参考訳): スケーラブル強化学習のためのpodracerアーキテクチャ
- Authors: Matteo Hessel, Manuel Kroiss, Aidan Clark, Iurii Kemaev, John Quan,
Thomas Keck, Fabio Viola and Hado van Hasselt
- Abstract要約: 強化学習(RL)エージェントを大規模に訓練する方法はまだ活発な研究分野である。
このレポートでは、TPUはスケーラブルで効率的で再現性の高い方法でRLエージェントをトレーニングするのに特に適しています。
- 参考スコア(独自算出の注目度): 23.369001500657028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supporting state-of-the-art AI research requires balancing rapid prototyping,
ease of use, and quick iteration, with the ability to deploy experiments at a
scale traditionally associated with production systems.Deep learning frameworks
such as TensorFlow, PyTorch and JAX allow users to transparently make use of
accelerators, such as TPUs and GPUs, to offload the more computationally
intensive parts of training and inference in modern deep learning systems.
Popular training pipelines that use these frameworks for deep learning
typically focus on (un-)supervised learning. How to best train reinforcement
learning (RL) agents at scale is still an active research area. In this report
we argue that TPUs are particularly well suited for training RL agents in a
scalable, efficient and reproducible way. Specifically we describe two
architectures designed to make the best use of the resources available on a TPU
Pod (a special configuration in a Google data center that features multiple TPU
devices connected to each other by extremely low latency communication
channels).
- Abstract(参考訳): 最先端AI研究のサポートには、迅速なプロトタイピング、使いやすさ、迅速なイテレーションのバランスと、従来から運用システムに関連付けられていた規模の実験をデプロイする能力が必要だ。TensorFlowやPyTorch、JAXといったディープラーニングフレームワークによって、TPUやGPUといったアクセラレータを透過的に使用することで、現代的なディープラーニングシステムにおいて、より計算集約的なトレーニングと推論の部分をオフロードすることが可能になる。
これらのフレームワークをディープラーニングに使用する一般的なトレーニングパイプラインは、通常は(教師なしの)学習に重点を置いている。
強化学習(RL)エージェントを大規模に訓練する方法はまだ活発な研究分野である。
本報告では、TPUは、スケーラブルで効率的かつ再現可能な方法でRLエージェントを訓練するのに特に適していると論じる。
具体的には,tpu pod上で利用可能なリソースを最大限に活用するために設計された2つのアーキテクチャについて説明する。
関連論文リスト
- Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Parallel Reinforcement Learning Simulation for Visual Quadrotor
Navigation [4.597465975849579]
強化学習(Reinforcement Learning、RL)は、ロボットに物理的な世界の中をナビゲートするように教えるエージェントベースのアプローチである。
本稿では,AirSim上に構築された並列学習を効率的に行うシミュレーションフレームワークを提案する。
このフレームワーク上に構築されたApe-Xは、AirSim環境の分散トレーニングを組み込むように修正されている。
論文 参考訳(メタデータ) (2022-09-22T15:27:42Z) - Bayesian Generational Population-Based Training [35.70338636901159]
Population-Based Training (PBT)は、いくつかの大規模な設定で素晴らしいパフォーマンスを実現している。
PBTスタイルの手法に2つの新しい革新を導入する。
これらのイノベーションが大きなパフォーマンス向上につながっていることを示しています。
論文 参考訳(メタデータ) (2022-07-19T16:57:38Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Improving Generalization of Deep Reinforcement Learning-based TSP
Solvers [19.29028564568974]
本稿では,ディープラーニングアーキテクチャとDRL学習方法を含むMAGICという新しいアプローチを提案する。
マルチレイヤパーセプトロン,グラフニューラルネットワーク,アテンションモデルを統合したアーキテクチャでは,旅行セールスマンソリューションを逐次生成するポリシを定義している。
1) DRLポリシー更新をローカル検索とインターリーブし(新しいローカル検索技術を用いて)、(2) 新たなシンプルなベースラインを使用し、(3) 勾配学習を適用した。
論文 参考訳(メタデータ) (2021-10-06T15:16:19Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Benchmarking network fabrics for data distributed training of deep
neural networks [10.067102343753643]
深層モデルの訓練のための大規模な計算要求は、より高速な訓練のための新しい方法の開発を必要としている。
このようなアプローチのひとつに、トレーニングデータを複数の計算ノードに分散する、データ並列アプローチがある。
本稿では,物理ハードウェアの相互接続とネットワーク関連ソフトウェアプリミティブを用いてデータ分散ディープラーニングを実現する効果について検討する。
論文 参考訳(メタデータ) (2020-08-18T17:38:30Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。