論文の概要: A DPDK-Based Acceleration Method for Experience Sampling of Distributed
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.13506v1
- Date: Tue, 26 Oct 2021 09:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 16:12:04.295967
- Title: A DPDK-Based Acceleration Method for Experience Sampling of Distributed
Reinforcement Learning
- Title(参考訳): dpdkを用いた分散強化学習体験サンプリングのための高速化手法
- Authors: Masaki Furukawa, Hiroki Matsutani
- Abstract要約: ActorノードとLearnerノード間の通信オーバーヘッドは、大きなパフォーマンスボトルネックのひとつだ。
低レイテンシ体験リプレイメモリサーバは、40Gbit Ethernetネットワークと相互接続されたActorノードとLearnerノードの間にデプロイされる。
ネットワーク最適化手法として、DPDKによるカーネルバイパスは、共有メモリサーバへのネットワークアクセス遅延を32.7%減らして58.9%に削減する。
- 参考スコア(独自算出の注目度): 3.4795226670772745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A computing cluster that interconnects multiple compute nodes is used to
accelerate distributed reinforcement learning based on DQN (Deep Q-Network). In
distributed reinforcement learning, Actor nodes acquire experiences by
interacting with a given environment and a Learner node optimizes their DQN
model. Since data transfer between Actor and Learner nodes increases depending
on the number of Actor nodes and their experience size, communication overhead
between them is one of major performance bottlenecks. In this paper, their
communication is accelerated by DPDK-based network optimizations, and
DPDK-based low-latency experience replay memory server is deployed between
Actor and Learner nodes interconnected with a 40GbE (40Gbit Ethernet) network.
Evaluation results show that, as a network optimization technique, kernel
bypassing by DPDK reduces network access latencies to a shared memory server by
32.7% to 58.9%. As another network optimization technique, an in-network
experience replay memory server between Actor and Learner nodes reduces access
latencies to the experience replay memory by 11.7% to 28.1% and communication
latencies for prioritized experience sampling by 21.9% to 29.1%.
- Abstract(参考訳): 複数の計算ノードを相互接続するコンピューティングクラスタは、dqn(deep q-network)に基づく分散強化学習を加速するために使用される。
分散強化学習では、アクターノードは所定の環境と相互作用して経験を得、学習ノードはDQNモデルを最適化する。
アクタノードと学習ノード間のデータ転送はアクタノードの数とそのエクスペリエンスサイズによって増加するため、アクタノード間の通信オーバーヘッドは大きなパフォーマンスボトルネックの1つである。
本稿では, DPDKベースのネットワーク最適化により通信が高速化され, 40GbE (40Gbit Ethernet)ネットワークに接続されたActorノードとLearnerノードの間に, DPDKベースの低レイテンシ体験リプレイメモリサーバが配置される。
評価の結果、ネットワーク最適化手法として、DPDKによるカーネルバイパスは共有メモリサーバへのネットワークアクセスレイテンシを32.7%削減し58.9%に削減した。
別のネットワーク最適化手法として、アクタノードと学習ノード間のネットワーク内エクスペリエンスリプレイメモリサーバは、エクスペリエンスリプレイメモリへのアクセス遅延を11.7%から28.1%に削減し、優先されたエクスペリエンスサンプリングのための通信遅延を21.9%から29.1%に削減する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Boosting the Performance of Decentralized Federated Learning via Catalyst Acceleration [66.43954501171292]
本稿では,Catalytics Accelerationを導入し,DFedCataと呼ばれる促進型分散フェデレート学習アルゴリズムを提案する。
DFedCataは、パラメータの不整合に対処するMoreauエンベロープ関数と、アグリゲーションフェーズを加速するNesterovの外挿ステップの2つの主要コンポーネントで構成されている。
実験により, CIFAR10/100における収束速度と一般化性能の両面において, 提案アルゴリズムの利点を実証した。
論文 参考訳(メタデータ) (2024-10-09T06:17:16Z) - Edge-device Collaborative Computing for Multi-view Classification [9.047284788663776]
エッジノードとエンドデバイスが相関データと推論計算負荷を共有するエッジでの協調推論について検討する。
本稿では,データ冗長性を効果的に低減し,帯域幅の消費を削減できる選択手法を提案する。
実験結果から、選択的な協調スキームは上記の性能指標間で異なるトレードオフを達成できることが示された。
論文 参考訳(メタデータ) (2024-09-24T11:07:33Z) - Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2023-06-01T14:00:47Z) - Exploiting Sparsity in Pruned Neural Networks to Optimize Large Model
Training [1.5301777464637454]
並列深層学習のための2つの一般的なアルゴリズムにおいて,スパースワークを利用してメモリ利用と通信を最適化する手法を提案する。
我々は、並列ディープラーニングのための高度にスケーラブルなフレームワークであるAxoNNにアプローチを統合し、通信時間とメモリ使用量の削減を実証する。
論文 参考訳(メタデータ) (2023-02-10T04:22:25Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Introducing ECAPA-TDNN and Wav2Vec2.0 Embeddings to Stuttering Detection [7.42741711946564]
本研究は,大規模音声データセットに基づいて学習した訓練済みの深層モデルから抽出した音声埋め込みの応用を紹介する。
制限されたSEP-28kデータセットのみに基づいてトレーニングされた標準的な散乱検出システムと比較して、ベースラインの全体的な精度に関して、相対的な改善は16.74%である。
論文 参考訳(メタデータ) (2022-04-04T15:12:25Z) - Two-Bit Aggregation for Communication Efficient and Differentially
Private Federated Learning [79.66767935077925]
フェデレートラーニング(FL)では、機械学習モデルは、データをローカルに保ち、他のノードと共有しない状態で、複数のノードで分散的にトレーニングされる。
ノードからサーバに送信された情報は、各ノードのローカルデータの詳細を明らかにする可能性があるため、プライバシー上の懸念が生じる。
差分プライバシーを保証し、アップリンク通信オーバーヘッドを低減した2ビットアグリゲーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-06T19:03:58Z) - 1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training
with LAMB's Convergence Speed [17.953619054149378]
通信を圧縮した場合でも適応層学習率をサポートする新しい通信効率の高い1ビットラムを提案する。
バッチサイズが8Kから64KのBERT-Large事前学習タスクでは,NCCLベースのバックエンドを持つ1ビットLAMBが最大4.6倍の通信量削減を実現可能であることを示す。
論文 参考訳(メタデータ) (2021-04-13T10:07:49Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。