Fugu-MT 論文翻訳(概要): Efficient Algorithms for Device Placement of DNN Graph Operators

論文の概要: Efficient Algorithms for Device Placement of DNN Graph Operators

arxiv url: http://arxiv.org/abs/2006.16423v2
Date: Thu, 29 Oct 2020 19:07:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 14:21:43.948958
Title: Efficient Algorithms for Device Placement of DNN Graph Operators
Title（参考訳）: DNNグラフ演算子のデバイス配置のための効率的なアルゴリズム
Authors: Jakub Tarnawski, Amar Phanishayee, Nikhil R. Devanur, Divya Mahajan, Fanny Nina Paravecino
Abstract要約: 現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。複雑なモデルを実行するデバイスは、CPUに加えて、ハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが盛んになるにつれて、ますます異質になりつつある。近年の研究では、モデルの並列性、すなわちニューラルネットワークの計算グラフを複数のデバイスに分割することで、大きな利益が得られることが示されている。本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。
参考スコア（独自算出の注目度）: 12.871398348743591
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern machine learning workloads use large models, with complex structures, that are very expensive to execute. The devices that execute complex models are becoming increasingly heterogeneous as we see a flourishing of domain-specific accelerators being offered as hardware accelerators in addition to CPUs. These trends necessitate distributing the workload across multiple devices. Recent work has shown that significant gains can be obtained with model parallelism, i.e, partitioning a neural network's computational graph onto multiple devices. In particular, this form of parallelism assumes a pipeline of devices, which is fed a stream of samples and yields high throughput for training and inference of DNNs. However, for such settings (large models and multiple heterogeneous devices), we require automated algorithms and toolchains that can partition the ML workload across devices. In this paper, we identify and isolate the structured optimization problem at the core of device placement of DNN operators, for both inference and training, especially in modern pipelined settings. We then provide algorithms that solve this problem to optimality. We demonstrate the applicability and efficiency of our approaches using several contemporary DNN computation graphs.
Abstract（参考訳）: 現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。複雑なモデルを実行するデバイスは、cpuに加えてハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが急増するにつれて、ますます異様になっています。これらの傾向は、ワークロードを複数のデバイスに分散させる必要がある。近年の研究では、ニューラルネットワークの計算グラフを複数のデバイスに分割するモデル並列性によって大きな利益が得られることが示されている。特に、この形式の並列性は、サンプルのストリームを供給し、DNNのトレーニングと推論のための高いスループットをもたらすデバイスのパイプラインを前提としている。しかし、そのような設定(大規模なモデルと複数の異種デバイス)には、デバイス間でMLワークロードを分割する自動化アルゴリズムとツールチェーンが必要です。本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。そして、この問題を最適に解くアルゴリズムを提供する。いくつかの現代のDNN計算グラフを用いて,本手法の適用性と有効性を示す。

関連論文リスト

Model-free front-to-end training of a large high performance laser neural network [0.0]
オフザシェルフコンポーネントを用いた完全自律並列光ニューラルネットワーク(ONN)を実演する。我々のONNは高効率で、ネットワークサイズと推定帯域幅の両方で、GHzレンジに向けてスケーラブルです。我々は,ハードウェアリソースの制限下であっても,ONNが高精度かつ収束効率を実現できることを示す。
論文参考訳（メタデータ） (2025-03-21T08:43:02Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Harnessing Manycore Processors with Distributed Memory for Accelerated Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文参考訳（メタデータ） (2023-11-07T23:18:35Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Real-time Hyper-Dimensional Reconfiguration at the Edge using Hardware Accelerators [12.599871451119538]
HyDRATEは、ディープニューラルネット(DNN)と超次元(HD)コンピューティングアクセラレータを組み合わせることで、エッジでリアルタイムな再構成を行うことができる。本稿では,アルゴリズム,訓練された量子化モデル生成,および乗算累積のない特徴抽出器の性能について述べる。降下勾配のバックプロパゲーションを伴わないフィードフォワードHD分類器のみをリトレーニングすることで、フィールドにおける再構成性を実現する。
論文参考訳（メタデータ） (2022-06-10T14:08:41Z)
Parallel and Distributed Graph Neural Networks: An In-Depth Concurrency Analysis [28.464210819376593]
グラフニューラルネットワーク(GNN)は、ディープラーニングにおいて最も強力なツールのひとつだ。ノード分類、グラフ分類、リンク予測などの非構造化ネットワーク上の複雑な問題を高精度に解決する。しかし、GNNの推論とトレーニングは複雑であり、不規則なグラフ処理の特徴と密度と正規な計算を一意に組み合わせている。この複雑さは、現代の大規模並列アーキテクチャ上でGNNを効率的に実行することを非常に困難にしている。
論文参考訳（メタデータ） (2022-05-19T17:11:45Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Collaborative Learning over Wireless Networks: An Introductory Overview [84.09366153693361]
主に、ワイヤレスデバイス間の協調トレーニングに焦点を合わせます。過去数十年間、多くの分散最適化アルゴリズムが開発されてきた。データ局所性 – すなわち、各参加デバイスで利用可能なデータがローカルのままである間、共同モデルを協調的にトレーニングすることができる。
論文参考訳（メタデータ） (2021-12-07T20:15:39Z)
Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-18T03:11:15Z)
Learning on Hardware: A Tutorial on Neural Network Accelerators and Co-Processors [0.0]
ディープニューラルネットワーク(dnn)は、複雑なタスクを解決可能にするために、多くのパラメータを考慮に入れることができるという利点がある。コンピュータビジョンや音声認識では、一般的なアルゴリズムよりも精度が高く、タスクによっては人間の専門家よりも精度が高いものもあります。近年のDNNの進展に伴い、疾患の診断や自動運転など、多くの応用分野が活用されています。
論文参考訳（メタデータ） (2021-04-19T12:50:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。