論文の概要: A DPDK-Based Acceleration Method for Experience Sampling of Distributed
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.13506v1
- Date: Tue, 26 Oct 2021 09:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 16:12:04.295967
- Title: A DPDK-Based Acceleration Method for Experience Sampling of Distributed
Reinforcement Learning
- Title(参考訳): dpdkを用いた分散強化学習体験サンプリングのための高速化手法
- Authors: Masaki Furukawa, Hiroki Matsutani
- Abstract要約: ActorノードとLearnerノード間の通信オーバーヘッドは、大きなパフォーマンスボトルネックのひとつだ。
低レイテンシ体験リプレイメモリサーバは、40Gbit Ethernetネットワークと相互接続されたActorノードとLearnerノードの間にデプロイされる。
ネットワーク最適化手法として、DPDKによるカーネルバイパスは、共有メモリサーバへのネットワークアクセス遅延を32.7%減らして58.9%に削減する。
- 参考スコア(独自算出の注目度): 3.4795226670772745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A computing cluster that interconnects multiple compute nodes is used to
accelerate distributed reinforcement learning based on DQN (Deep Q-Network). In
distributed reinforcement learning, Actor nodes acquire experiences by
interacting with a given environment and a Learner node optimizes their DQN
model. Since data transfer between Actor and Learner nodes increases depending
on the number of Actor nodes and their experience size, communication overhead
between them is one of major performance bottlenecks. In this paper, their
communication is accelerated by DPDK-based network optimizations, and
DPDK-based low-latency experience replay memory server is deployed between
Actor and Learner nodes interconnected with a 40GbE (40Gbit Ethernet) network.
Evaluation results show that, as a network optimization technique, kernel
bypassing by DPDK reduces network access latencies to a shared memory server by
32.7% to 58.9%. As another network optimization technique, an in-network
experience replay memory server between Actor and Learner nodes reduces access
latencies to the experience replay memory by 11.7% to 28.1% and communication
latencies for prioritized experience sampling by 21.9% to 29.1%.
- Abstract(参考訳): 複数の計算ノードを相互接続するコンピューティングクラスタは、dqn(deep q-network)に基づく分散強化学習を加速するために使用される。
分散強化学習では、アクターノードは所定の環境と相互作用して経験を得、学習ノードはDQNモデルを最適化する。
アクタノードと学習ノード間のデータ転送はアクタノードの数とそのエクスペリエンスサイズによって増加するため、アクタノード間の通信オーバーヘッドは大きなパフォーマンスボトルネックの1つである。
本稿では, DPDKベースのネットワーク最適化により通信が高速化され, 40GbE (40Gbit Ethernet)ネットワークに接続されたActorノードとLearnerノードの間に, DPDKベースの低レイテンシ体験リプレイメモリサーバが配置される。
評価の結果、ネットワーク最適化手法として、DPDKによるカーネルバイパスは共有メモリサーバへのネットワークアクセスレイテンシを32.7%削減し58.9%に削減した。
別のネットワーク最適化手法として、アクタノードと学習ノード間のネットワーク内エクスペリエンスリプレイメモリサーバは、エクスペリエンスリプレイメモリへのアクセス遅延を11.7%から28.1%に削減し、優先されたエクスペリエンスサンプリングのための通信遅延を21.9%から29.1%に削減する。
関連論文リスト
- Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2023-06-01T14:00:47Z) - Task-aware Distributed Source Coding under Dynamic Bandwidth [24.498190179263837]
独立エンコーダとジョイントデコーダからなる分散圧縮フレームワークを提案し,ニューラル分散主成分分析(NDPCA)と呼ぶ。
NDPCAは、複数のソースからのデータを単一のモデルで任意の帯域に柔軟に圧縮し、計算とストレージのオーバーヘッドを減らす。
実験の結果,NDPCAは多視点ロボットアーム操作の成功率を9%向上し,衛星画像上の物体検出タスクの精度を14%向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T19:20:59Z) - Exploiting Sparsity in Pruned Neural Networks to Optimize Large Model
Training [1.5301777464637454]
並列深層学習のための2つの一般的なアルゴリズムにおいて,スパースワークを利用してメモリ利用と通信を最適化する手法を提案する。
我々は、並列ディープラーニングのための高度にスケーラブルなフレームワークであるAxoNNにアプローチを統合し、通信時間とメモリ使用量の削減を実証する。
論文 参考訳(メタデータ) (2023-02-10T04:22:25Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Introducing ECAPA-TDNN and Wav2Vec2.0 Embeddings to Stuttering Detection [7.42741711946564]
本研究は,大規模音声データセットに基づいて学習した訓練済みの深層モデルから抽出した音声埋め込みの応用を紹介する。
制限されたSEP-28kデータセットのみに基づいてトレーニングされた標準的な散乱検出システムと比較して、ベースラインの全体的な精度に関して、相対的な改善は16.74%である。
論文 参考訳(メタデータ) (2022-04-04T15:12:25Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Two-Bit Aggregation for Communication Efficient and Differentially
Private Federated Learning [79.66767935077925]
フェデレートラーニング(FL)では、機械学習モデルは、データをローカルに保ち、他のノードと共有しない状態で、複数のノードで分散的にトレーニングされる。
ノードからサーバに送信された情報は、各ノードのローカルデータの詳細を明らかにする可能性があるため、プライバシー上の懸念が生じる。
差分プライバシーを保証し、アップリンク通信オーバーヘッドを低減した2ビットアグリゲーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-06T19:03:58Z) - 1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training
with LAMB's Convergence Speed [17.953619054149378]
通信を圧縮した場合でも適応層学習率をサポートする新しい通信効率の高い1ビットラムを提案する。
バッチサイズが8Kから64KのBERT-Large事前学習タスクでは,NCCLベースのバックエンドを持つ1ビットLAMBが最大4.6倍の通信量削減を実現可能であることを示す。
論文 参考訳(メタデータ) (2021-04-13T10:07:49Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。