論文の概要: Enabling Realtime Reinforcement Learning at Scale with Staggered Asynchronous Inference
- arxiv url: http://arxiv.org/abs/2412.14355v1
- Date: Wed, 18 Dec 2024 21:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:03.601714
- Title: Enabling Realtime Reinforcement Learning at Scale with Staggered Asynchronous Inference
- Title(参考訳): 重み付き非同期推論による大規模リアルタイム強化学習の実現
- Authors: Matthew Riemer, Gopeshh Subbaraj, Glen Berseth, Irina Rish,
- Abstract要約: エージェントがアクション推論と学習を行う場合であっても、リアルタイム環境は変化する。
機械学習の最近の進歩は、推論時間が長いより大きなニューラルネットワークを含んでいる。
実時間強化学習における後悔に対する低い限界について分析する。
- 参考スコア(独自算出の注目度): 22.106900089984318
- License:
- Abstract: Realtime environments change even as agents perform action inference and learning, thus requiring high interaction frequencies to effectively minimize regret. However, recent advances in machine learning involve larger neural networks with longer inference times, raising questions about their applicability in realtime systems where reaction time is crucial. We present an analysis of lower bounds on regret in realtime reinforcement learning (RL) environments to show that minimizing long-term regret is generally impossible within the typical sequential interaction and learning paradigm, but often becomes possible when sufficient asynchronous compute is available. We propose novel algorithms for staggering asynchronous inference processes to ensure that actions are taken at consistent time intervals, and demonstrate that use of models with high action inference times is only constrained by the environment's effective stochasticity over the inference horizon, and not by action frequency. Our analysis shows that the number of inference processes needed scales linearly with increasing inference times while enabling use of models that are multiple orders of magnitude larger than existing approaches when learning from a realtime simulation of Game Boy games such as Pok\'emon and Tetris.
- Abstract(参考訳): エージェントが行動推論と学習を行う場合であっても、リアルタイム環境は変化するため、後悔を効果的に最小化するために高い相互作用周波数を必要とする。
しかし、機械学習の最近の進歩は、より長い推論時間を持つより大きなニューラルネットワークを伴い、反応時間が不可欠であるリアルタイムシステムにおけるそれらの適用性に関する疑問を提起している。
本稿では、リアルタイム強化学習(RL)環境における後悔の少ない境界について分析を行い、典型的な逐次的相互作用および学習パラダイムにおいて、長期的後悔の最小化は一般的に不可能であるが、十分な非同期計算が利用可能であれば、しばしば可能となることを示す。
本研究では,動作が一貫した時間間隔で取られることを保証するため,非同期推論プロセスをステージングするための新しいアルゴリズムを提案する。
解析の結果,Pok\emonやTetrisといったゲームボーイゲームのリアルタイムシミュレーションから学習する際,既存のアプローチよりも桁違いに大きいモデルの活用が可能となった。
関連論文リスト
- Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。
我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。
本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-16T07:53:42Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Asynchronous Reinforcement Learning for Real-Time Control of Physical
Robots [2.3061446605472558]
学習更新が高価である場合には、逐次学習のパフォーマンスが低下し、非同期学習により大幅に向上することを示す。
われわれのシステムは2時間以内に、リアルタイムで学習し、2時間以内にピクセルから視覚的目標に到達し、追跡する。
論文 参考訳(メタデータ) (2022-03-23T23:05:28Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z) - STRODE: Stochastic Boundary Ordinary Differential Equation [30.237665903943963]
時系列モデリングのほとんどのアルゴリズムは、視覚や音声の入力から直接ランダムなイベントタイミングのダイナミクスを学習できない。
本稿では、学習中にタイミングアノテーションを必要とせず、時系列データのタイミングとダイナミクスの両方を学習する確率的常微分方程式(ODE)を提案する。
その結果,本手法は時系列データのイベントタイミング推定に有効であることがわかった。
論文 参考訳(メタデータ) (2021-07-17T16:25:46Z) - Synergetic Learning of Heterogeneous Temporal Sequences for
Multi-Horizon Probabilistic Forecasting [48.8617204809538]
本稿では,新しい条件生成モデルである変分相乗型マルチホライゾンネットワーク(VSMHN)を提案する。
不均一なシーケンス間で複雑な相関関係を学習するために、深部プロセスモデルと変動的リカレントニューラルネットワークの進歩を組み合わせるために、調整されたエンコーダが考案された。
我々のモデルは変動予測を用いて効果的に訓練でき、モンテカルロシミュレーションを用いて予測を生成することができる。
論文 参考訳(メタデータ) (2021-01-31T11:00:55Z) - Action-Conditional Recurrent Kalman Networks For Forward and Inverse
Dynamics Learning [17.80270555749689]
ロボットのモデルベース制御において、正確な前方および逆ダイナミクスモデルの推定が重要な要素である。
本稿では,フォワードモデル学習のためのアーキテクチャと,逆モデル学習のためのアーキテクチャを提案する。
どちらのアーキテクチャも、予測性能の点で、既存のモデル学習フレームワークと分析モデルを大きく上回っている。
論文 参考訳(メタデータ) (2020-10-20T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。