論文の概要: Handling Delay in Real-Time Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.23478v1
- Date: Sun, 30 Mar 2025 15:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.144588
- Title: Handling Delay in Real-Time Reinforcement Learning
- Title(参考訳): リアルタイム強化学習における遅延処理
- Authors: Ivan Anokhin, Rishav Rishav, Matthew Riemer, Stephen Chung, Irina Rish, Samira Ebrahimi Kahou,
- Abstract要約: 本稿では,時間的スキップ接続と履歴付加観測を併用した理論的動機付けソリューションを提案する。
並列ニューロン計算により,標準ハードウェア上での推論を6~350%高速化できることを示す。
- 参考スコア(独自算出の注目度): 24.869578892204792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time reinforcement learning (RL) introduces several challenges. First, policies are constrained to a fixed number of actions per second due to hardware limitations. Second, the environment may change while the network is still computing an action, leading to observational delay. The first issue can partly be addressed with pipelining, leading to higher throughput and potentially better policies. However, the second issue remains: if each neuron operates in parallel with an execution time of $\tau$, an $N$-layer feed-forward network experiences observation delay of $\tau N$. Reducing the number of layers can decrease this delay, but at the cost of the network's expressivity. In this work, we explore the trade-off between minimizing delay and network's expressivity. We present a theoretically motivated solution that leverages temporal skip connections combined with history-augmented observations. We evaluate several architectures and show that those incorporating temporal skip connections achieve strong performance across various neuron execution times, reinforcement learning algorithms, and environments, including four Mujoco tasks and all MinAtar games. Moreover, we demonstrate parallel neuron computation can accelerate inference by 6-350% on standard hardware. Our investigation into temporal skip connections and parallel computations paves the way for more efficient RL agents in real-time setting.
- Abstract(参考訳): リアルタイム強化学習(RL)にはいくつかの課題がある。
第一に、ポリシーはハードウェアの制限のために毎秒一定数のアクションに制約される。
第二に、ネットワークがまだ動作を計算している間に環境が変化し、観測が遅れる可能性がある。
最初の問題はパイプライニングによって部分的に解決できるため、スループットが向上し、ポリシーも改善される可能性がある。
しかし、第2の問題は、各ニューロンが$\tau$の実行時間と並行して動作する場合、$N$層フィードフォワードネットワークは$\tau N$の観察遅延を経験する。
レイヤ数を削減すれば、この遅延を低減できるが、ネットワークの表現性は低下する。
本研究では,遅延最小化とネットワーク表現性のトレードオフについて検討する。
本稿では,時間的スキップ接続と履歴付加観測を併用した理論的動機付けソリューションを提案する。
いくつかのアーキテクチャを評価し,時間的スキップ接続を組み込むことで,4つのMujocoタスクやすべてのMinAtarゲームを含む,様々なニューロン実行時間,強化学習アルゴリズム,環境の強いパフォーマンスを実現することを示す。
さらに,並列ニューロン計算により,標準ハードウェア上での推論を6~350%高速化できることを示す。
時間的スキップ接続と並列計算に関する調査は、リアルタイム設定においてより効率的なRLエージェントを実現するための道を開く。
関連論文リスト
- Efficient Event-based Delay Learning in Spiking Neural Networks [0.1350479308585481]
スパイキングニューラルネットワーク(SNN)は、従来のニューラルネットワークに代わるエネルギー効率の高い代替手段として注目を集めている。
本研究では,EventPropProp形式に基づくSNNのための新しいイベントベーストレーニング手法を提案する。
提案手法は,現在最先端の遅延学習手法のメモリの半分以下を用いており,最大26倍高速であることを示す。
論文 参考訳(メタデータ) (2025-01-13T13:44:34Z) - PRF: Parallel Resonate and Fire Neuron for Long Sequence Learning in Spiking Neural Networks [6.545474731089018]
スパイキングニューラルネットワーク(SNN)における長周期学習の効率性と性能の課題を同時に解決する。
まず,典型的なLeaky Integrate-and-Fire(LIF)モデルのトレーニング時間を$O(L2)$から$O(Llog L)$に短縮する。
第二に、長距離依存性を捉えるために、複素領域における微分可能リセット関数から共振機構によって駆動される振動膜電位を利用するパラレル共鳴・火災ニューロン(PRF)を提案する。
論文 参考訳(メタデータ) (2024-10-04T15:51:56Z) - Decentralized Optimization in Time-Varying Networks with Arbitrary Delays [22.40154714677385]
通信遅延によるネットワークの分散最適化問題を考察する。
そのようなネットワークの例としては、協調機械学習、センサーネットワーク、マルチエージェントシステムなどがある。
通信遅延を模倣するため、ネットワークに仮想非計算ノードを追加し、有向グラフを生成する。
論文 参考訳(メタデータ) (2024-05-29T20:51:38Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Temporal Aggregation and Propagation Graph Neural Networks for Dynamic
Representation [67.26422477327179]
時間グラフは連続時間を通してノード間の動的相互作用を示す。
本研究では,周辺地域全体と時間的グラフ畳み込みの新たな手法を提案する。
提案するTAP-GNNは,予測性能とオンライン推論遅延の両面で,既存の時間グラフ手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-15T08:17:18Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。
$mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文 参考訳(メタデータ) (2022-08-30T08:44:15Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - AEGNN: Asynchronous Event-based Graph Neural Networks [54.528926463775946]
イベントベースのグラフニューラルネットワークは、標準のGNNを一般化して、イベントを"進化的"時間グラフとして処理する。
AEGNNは同期入力で容易に訓練でき、テスト時に効率的な「非同期」ネットワークに変換できる。
論文 参考訳(メタデータ) (2022-03-31T16:21:12Z) - LayerPipe: Accelerating Deep Neural Network Training by Intra-Layer and
Inter-Layer Gradient Pipelining and Multiprocessor Scheduling [6.549125450209931]
バックプロパゲーションによるモデルパラメータのトレーニングは、本質的にフィードバックループを生成する。
提案システムはLayerPipeと呼ばれ、トレーニングに必要なクロックサイクルの数を削減している。
論文 参考訳(メタデータ) (2021-08-14T23:51:00Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。