論文の概要: Synthesizing Optimal Parallelism Placement and Reduction Strategies on
Hierarchical Systems for Deep Learning
- arxiv url: http://arxiv.org/abs/2110.10548v1
- Date: Wed, 20 Oct 2021 13:05:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 20:07:56.458252
- Title: Synthesizing Optimal Parallelism Placement and Reduction Strategies on
Hierarchical Systems for Deep Learning
- Title(参考訳): 階層型深層学習システムにおける最適並列性配置と削減戦略の合成
- Authors: Ningning Xie, Tamara Norman, Dominik Grewe, Dimitrios Vytiniotis
- Abstract要約: 本稿では,複数並列化形式を階層型加速器系にマッピングする手法を提案する。
我々は、これらのマッピングが全再現性能(最大448倍)に与える影響を実験的に検証した。
我々は1つ以上の並列化軸を集合列に分解できる新しい構文誘導型プログラム合成フレームワークを提供する。
- 参考スコア(独自算出の注目度): 0.3345437353879254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel characterization of the mapping of multiple parallelism
forms (e.g. data and model parallelism) onto hierarchical accelerator systems
that is hierarchy-aware and greatly reduces the space of software-to-hardware
mapping. We experimentally verify the substantial effect of these mappings on
all-reduce performance (up to 448x). We offer a novel syntax-guided program
synthesis framework that is able to decompose reductions over one or more
parallelism axes to sequences of collectives in a hierarchy- and mapping-aware
way. For 69% of parallelism placements and user requested reductions, our
framework synthesizes programs that outperform the default all-reduce
implementation when evaluated on different GPU hierarchies (max 2.04x, average
1.27x). We complement our synthesis tool with a simulator exceeding 90% top-10
accuracy, which therefore reduces the need for massive evaluations of synthesis
results to determine a small set of optimal programs and mappings.
- Abstract(参考訳): 本稿では,複数の並列化形式(例えばデータやモデル並列化)を階層的に認識し,ソフトウェアからハードウェアへのマッピングの空間を大幅に削減する階層型アクセラレータシステムにマッピングする手法を提案する。
これらのマッピングが全再現性能(最大448倍)に与える影響を実験的に検証した。
1つ以上の並列性軸上の還元を階層的かつマッピング対応的な方法で集合のシーケンスに分解できる、新しい構文誘導型プログラム合成フレームワークを提供する。
並列処理の配置とユーザ要求の削減の69%については、GPU階層(max 2.04x, average 1.27x)で評価した場合、デフォルトのオールリデュース実装よりも優れたプログラムを合成する。
我々は,90%のtop-10精度を超えるシミュレータを用いて合成ツールの補完を行い,最適なプログラムとマッピングを決定するための合成結果の大規模評価の必要性を低減した。
関連論文リスト
- A hierarchy of eigencomputations for polynomial optimization on the sphere [0.0]
単位球面上の実形式の最小値に下界の収束階層を導入する。
実和-二乗階層に対する我々の階層の主な実用的利点は、各レベルの下限が最小の固有値によって得られることである。
論文 参考訳(メタデータ) (2023-10-27T00:28:12Z) - Make Deep Networks Shallow Again [6.647569337929869]
余剰接続の概念によってブレークスルーが達成されている。
残差接続層のスタックはテイラー展開に類似した項の拡張として表すことができる。
言い換えれば、シーケンシャルなディープアーキテクチャは、平行な浅層アーキテクチャに置き換えられる。
論文 参考訳(メタデータ) (2023-09-15T14:18:21Z) - ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis [54.18659323181771]
プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付ける。
本稿では,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラム実行によって段階的に通知される問題を解くための,新しい分解ベースの戦略である。
論文 参考訳(メタデータ) (2023-07-26T01:07:52Z) - Parallel Tree Kernel Computation [0.0]
2つの有限木からなる木核の計算のための逐次アルゴリズムの並列実装を考案する。
その結果,提案した並列アルゴリズムは遅延の点で逐次アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-12T18:16:45Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Auto-Parallelizing Large Models with Rhino: A Systematic Approach on
Production AI Platform [15.606647290942563]
Rhinoは、実運用環境向けのAIプラットフォーム上で自動並列化を備えたテンソルプログラムを高速化するシステムである。
単一のデバイス用に書かれたテンソルプログラムを,ユーザ設定なしで数千台のデバイスにスケールアップ可能な,同等の分散プログラムに変換する。
論文 参考訳(メタデータ) (2023-02-16T08:19:56Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z) - Pruning-as-Search: Efficient Neural Architecture Search via Channel
Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。
提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文 参考訳(メタデータ) (2022-06-02T17:58:54Z) - Restructuring, Pruning, and Adjustment of Deep Models for Parallel
Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。
並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。
既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-08-19T06:44:41Z) - BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。
特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。
単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文 参考訳(メタデータ) (2020-07-28T17:46:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。