論文の概要: Optimizing Mixture of Experts using Dynamic Recompilations
- arxiv url: http://arxiv.org/abs/2205.01848v1
- Date: Wed, 4 May 2022 02:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 02:54:07.221318
- Title: Optimizing Mixture of Experts using Dynamic Recompilations
- Title(参考訳): 動的再コンパイルによるエキスパートの混合の最適化
- Authors: Ferdinand Kossmann, Zhihao Jia, Alex Aiken
- Abstract要約: 我々はDynaMoEについて述べる。DynaMoEは動的再コンパイルを用いて計算資源の利用を最適化し、Mixture of Expertsモデルの動的ニーズに適応するライブラリである。
評価の結果、DynaMoEは1.8倍の高速化を実現し、既存のMoEシステムと比較して2.3倍のモデルサイズをサポートすることがわかった。
次に、動的再コンパイルによりさらに1.7倍の高速化を実現し、同時にメモリ圧力を低減し、モデル品質を向上する最適化を提案する。
- 参考スコア(独自算出の注目度): 32.64805486227594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Mixture of Experts architecture allows for outrageously large neural
networks by scaling model parameter size independently from computational
demand (FLOPs). However, current DNN frameworks cannot effectively support the
dynamic data flow in Mixture of Experts, and implementations on top of these
frameworks need to use workarounds that introduce significant overheads. To
address the limitation of these frameworks, we present DynaMoE, a DNN library
that uses dynamic recompilations to optimize and adapt the use of computational
resources to the dynamic needs of Mixture of Experts models. Our evaluation
shows that DynaMoE achieves a 1.8x speedup and supports 2.3x larger model sizes
when compared to existing MoE systems, even when not using recompilations. We
then present further optimizations enabled by dynamic recompilations that yield
an additional 1.7x speedup while simultaneously reducing memory pressure and
improving model quality.
- Abstract(参考訳): Mixture of Expertsアーキテクチャは、計算要求(FLOP)とは独立してモデルパラメータサイズをスケーリングすることで、はるかに大きなニューラルネットワークを可能にする。
しかし、現在のdnnフレームワークは、専門家の混合で動的データフローを効果的にサポートできないため、これらのフレームワーク上の実装は、かなりのオーバーヘッドをもたらす回避策を使用する必要がある。
このようなフレームワークの限界に対処するため,DynaMoEというDNNライブラリを紹介した。DynaMoEは動的再コンパイルを用いて,計算資源の活用を最適化し,Mixture of Expertsモデルの動的要求に適応させる。
評価の結果、DynaMoEは1.8倍の高速化を実現し、既存のMoEシステムと比較して2.3倍のモデルサイズをサポートする。
次に、動的再コンパイルによりさらに1.7倍の高速化を実現し、同時にメモリ圧力を低減し、モデル品質を向上させる。
関連論文リスト
- DyCE: Dynamic Configurable Exiting for Deep Learning Compression and
Scaling [1.9686770963118378]
DyCEは、設計上の考慮事項を互いに分離し、ベースモデルから切り離す動的早期退避フレームワークである。
これにより、ResNet152の23.5%、ImageNetのConvNextv2の25.9%の計算複雑性が大幅に削減され、精度は0.5%以下になった。
論文 参考訳(メタデータ) (2024-03-04T03:09:28Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Sparsity-guided Network Design for Frame Interpolation [39.828644638174225]
フレームベースアルゴリズムのための圧縮駆動型ネットワーク設計を提案する。
モデルサイズを大幅に削減するために、スパーシリティ誘導最適化によるモデルプルーニングを活用する。
原型AdaCoFの4分の1の大きさで大幅な性能向上を実現しています。
論文 参考訳(メタデータ) (2022-09-09T23:13:25Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Incremental Training and Group Convolution Pruning for Runtime DNN
Performance Scaling on Heterogeneous Embedded Platforms [23.00896228073755]
Deep Neural Networksの推論は、モバイルおよび組み込みプラットフォームでローカルに実行されるようになっている。
本稿では,インクリメンタルトレーニングとグループ畳み込みプルーニングを用いた動的DNNを提案する。
タスクマッピングとDVFSを組み合わせて10.6倍(エネルギー)と41.6倍(時間)のダイナミックレンジを達成した。
論文 参考訳(メタデータ) (2021-05-08T05:38:01Z) - AntiDote: Attention-based Dynamic Optimization for Neural Network
Runtime Efficiency [42.00372941618975]
本稿では,ニューラルネットワークの注意機構に基づく動的CNN最適化フレームワークを提案する。
我々の方法では、様々なテストネットワークで無視できる精度の低下で37.4%から54.5%のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-08-14T18:48:13Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - FlexSA: Flexible Systolic Array Architecture for Efficient Pruned DNN
Model Training [1.718730454558804]
一般的なトレーニングアクセラレーターを大きなシストリックアレイでプルーニングすることは、非常に性能的に非効率であることがわかった。
本研究では,シストリックアレイを効率的なプルーニングとトレーニングを行うために,フレキシブルなシストリックアレイアーキテクチャであるFlexSAを提案する。
また、FlexSAのリソースを最大限活用するために、トレーニング作業負荷における行列乗算および累積演算のコンパイルを提案する。
論文 参考訳(メタデータ) (2020-04-27T15:51:20Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z) - BLK-REW: A Unified Block-based DNN Pruning Framework using Reweighted
Regularization Method [69.49386965992464]
本稿では, 汎用的かつ柔軟な構造化プルーニング次元と, 強力かつ効率的な再加重正規化手法を組み合わせたブロック型プルーニングフレームワークを提案する。
我々のフレームワークは普遍的であり、CNNとRNNの両方に適用できる。
リアルタイムモバイルアクセラレーションと精度の妥協のないCNNとRNNの共通カバレッジを実現するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-01-23T03:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。