Fugu-MT 論文翻訳(概要): A DPDK-Based Acceleration Method for Experience Sampling of Distributed Reinforcement Learning

論文の概要: A DPDK-Based Acceleration Method for Experience Sampling of Distributed Reinforcement Learning

arxiv url: http://arxiv.org/abs/2110.13506v1
Date: Tue, 26 Oct 2021 09:01:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-27 16:12:04.295967
Title: A DPDK-Based Acceleration Method for Experience Sampling of Distributed Reinforcement Learning
Title（参考訳）: dpdkを用いた分散強化学習体験サンプリングのための高速化手法
Authors: Masaki Furukawa, Hiroki Matsutani
Abstract要約: ActorノードとLearnerノード間の通信オーバーヘッドは、大きなパフォーマンスボトルネックのひとつだ。低レイテンシ体験リプレイメモリサーバは、40Gbit Ethernetネットワークと相互接続されたActorノードとLearnerノードの間にデプロイされる。ネットワーク最適化手法として、DPDKによるカーネルバイパスは、共有メモリサーバへのネットワークアクセス遅延を32.7%減らして58.9%に削減する。
参考スコア（独自算出の注目度）: 3.4795226670772745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A computing cluster that interconnects multiple compute nodes is used to accelerate distributed reinforcement learning based on DQN (Deep Q-Network). In distributed reinforcement learning, Actor nodes acquire experiences by interacting with a given environment and a Learner node optimizes their DQN model. Since data transfer between Actor and Learner nodes increases depending on the number of Actor nodes and their experience size, communication overhead between them is one of major performance bottlenecks. In this paper, their communication is accelerated by DPDK-based network optimizations, and DPDK-based low-latency experience replay memory server is deployed between Actor and Learner nodes interconnected with a 40GbE (40Gbit Ethernet) network. Evaluation results show that, as a network optimization technique, kernel bypassing by DPDK reduces network access latencies to a shared memory server by 32.7% to 58.9%. As another network optimization technique, an in-network experience replay memory server between Actor and Learner nodes reduces access latencies to the experience replay memory by 11.7% to 28.1% and communication latencies for prioritized experience sampling by 21.9% to 29.1%.
Abstract（参考訳）: 複数の計算ノードを相互接続するコンピューティングクラスタは、dqn(deep q-network)に基づく分散強化学習を加速するために使用される。分散強化学習では、アクターノードは所定の環境と相互作用して経験を得、学習ノードはDQNモデルを最適化する。アクタノードと学習ノード間のデータ転送はアクタノードの数とそのエクスペリエンスサイズによって増加するため、アクタノード間の通信オーバーヘッドは大きなパフォーマンスボトルネックの1つである。本稿では, DPDKベースのネットワーク最適化により通信が高速化され, 40GbE (40Gbit Ethernet)ネットワークに接続されたActorノードとLearnerノードの間に, DPDKベースの低レイテンシ体験リプレイメモリサーバが配置される。評価の結果、ネットワーク最適化手法として、DPDKによるカーネルバイパスは共有メモリサーバへのネットワークアクセスレイテンシを32.7%削減し58.9%に削減した。別のネットワーク最適化手法として、アクタノードと学習ノード間のネットワーク内エクスペリエンスリプレイメモリサーバは、エクスペリエンスリプレイメモリへのアクセス遅延を11.7%から28.1%に削減し、優先されたエクスペリエンスサンプリングのための通信遅延を21.9%から29.1%に削減する。

関連論文リスト

Multi-Agent Reinforcement Learning for Sample-Efficient Deep Neural Network Mapping [54.65536245955678]
本稿では,サンプル非効率性の課題を克服するために,分散型マルチエージェント強化学習(MARL)フレームワークを提案する。相関解析に基づいて類似のマッピングパラメータを同一エージェントに割り当てるエージェントクラスタリングアルゴリズムを提案する。実験の結果,MARL法は標準単エージェントRLよりも30～300倍効率が向上した。
論文参考訳（メタデータ） (2025-07-22T05:51:07Z)
Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文参考訳（メタデータ） (2024-12-02T06:57:46Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Boosting the Performance of Decentralized Federated Learning via Catalyst Acceleration [66.43954501171292]
本稿では,Catalytics Accelerationを導入し,DFedCataと呼ばれる促進型分散フェデレート学習アルゴリズムを提案する。 DFedCataは、パラメータの不整合に対処するMoreauエンベロープ関数と、アグリゲーションフェーズを加速するNesterovの外挿ステップの2つの主要コンポーネントで構成されている。実験により, CIFAR10/100における収束速度と一般化性能の両面において, 提案アルゴリズムの利点を実証した。
論文参考訳（メタデータ） (2024-10-09T06:17:16Z)
Edge-device Collaborative Computing for Multi-view Classification [9.047284788663776]
エッジノードとエンドデバイスが相関データと推論計算負荷を共有するエッジでの協調推論について検討する。本稿では,データ冗長性を効果的に低減し,帯域幅の消費を削減できる選択手法を提案する。実験結果から、選択的な協調スキームは上記の性能指標間で異なるトレードオフを達成できることが示された。
論文参考訳（メタデータ） (2024-09-24T11:07:33Z)
Stuttering Detection Using Speaker Representations and Self-supervised Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文参考訳（メタデータ） (2023-06-01T14:00:47Z)
Exploiting Sparsity in Pruned Neural Networks to Optimize Large Model Training [1.5301777464637454]
並列深層学習のための2つの一般的なアルゴリズムにおいて,スパースワークを利用してメモリ利用と通信を最適化する手法を提案する。我々は、並列ディープラーニングのための高度にスケーラブルなフレームワークであるAxoNNにアプローチを統合し、通信時間とメモリ使用量の削減を実証する。
論文参考訳（メタデータ） (2023-02-10T04:22:25Z)
Attention-based Feature Compression for CNN Inference Offloading in Edge Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文参考訳（メタデータ） (2022-11-24T18:10:01Z)
FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文参考訳（メタデータ） (2022-04-22T21:57:00Z)
Introducing ECAPA-TDNN and Wav2Vec2.0 Embeddings to Stuttering Detection [7.42741711946564]
本研究は,大規模音声データセットに基づいて学習した訓練済みの深層モデルから抽出した音声埋め込みの応用を紹介する。制限されたSEP-28kデータセットのみに基づいてトレーニングされた標準的な散乱検出システムと比較して、ベースラインの全体的な精度に関して、相対的な改善は16.74%である。
論文参考訳（メタデータ） (2022-04-04T15:12:25Z)
Two-Bit Aggregation for Communication Efficient and Differentially Private Federated Learning [79.66767935077925]
フェデレートラーニング(FL)では、機械学習モデルは、データをローカルに保ち、他のノードと共有しない状態で、複数のノードで分散的にトレーニングされる。ノードからサーバに送信された情報は、各ノードのローカルデータの詳細を明らかにする可能性があるため、プライバシー上の懸念が生じる。差分プライバシーを保証し、アップリンク通信オーバーヘッドを低減した2ビットアグリゲーションアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-10-06T19:03:58Z)
1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training with LAMB's Convergence Speed [17.953619054149378]
通信を圧縮した場合でも適応層学習率をサポートする新しい通信効率の高い1ビットラムを提案する。バッチサイズが8Kから64KのBERT-Large事前学習タスクでは,NCCLベースのバックエンドを持つ1ビットLAMBが最大4.6倍の通信量削減を実現可能であることを示す。
論文参考訳（メタデータ） (2021-04-13T10:07:49Z)
Decoupled and Memory-Reinforced Networks: Towards Effective Feature Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。現在のワンステップアプローチには2つの大きな課題があります。本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文参考訳（メタデータ） (2021-02-22T06:19:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。