論文の概要: Optimizing Mixture of Experts using Dynamic Recompilations
- arxiv url: http://arxiv.org/abs/2205.01848v1
- Date: Wed, 4 May 2022 02:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 02:54:07.221318
- Title: Optimizing Mixture of Experts using Dynamic Recompilations
- Title(参考訳): 動的再コンパイルによるエキスパートの混合の最適化
- Authors: Ferdinand Kossmann, Zhihao Jia, Alex Aiken
- Abstract要約: 我々はDynaMoEについて述べる。DynaMoEは動的再コンパイルを用いて計算資源の利用を最適化し、Mixture of Expertsモデルの動的ニーズに適応するライブラリである。
評価の結果、DynaMoEは1.8倍の高速化を実現し、既存のMoEシステムと比較して2.3倍のモデルサイズをサポートすることがわかった。
次に、動的再コンパイルによりさらに1.7倍の高速化を実現し、同時にメモリ圧力を低減し、モデル品質を向上する最適化を提案する。
- 参考スコア(独自算出の注目度): 32.64805486227594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Mixture of Experts architecture allows for outrageously large neural
networks by scaling model parameter size independently from computational
demand (FLOPs). However, current DNN frameworks cannot effectively support the
dynamic data flow in Mixture of Experts, and implementations on top of these
frameworks need to use workarounds that introduce significant overheads. To
address the limitation of these frameworks, we present DynaMoE, a DNN library
that uses dynamic recompilations to optimize and adapt the use of computational
resources to the dynamic needs of Mixture of Experts models. Our evaluation
shows that DynaMoE achieves a 1.8x speedup and supports 2.3x larger model sizes
when compared to existing MoE systems, even when not using recompilations. We
then present further optimizations enabled by dynamic recompilations that yield
an additional 1.7x speedup while simultaneously reducing memory pressure and
improving model quality.
- Abstract(参考訳): Mixture of Expertsアーキテクチャは、計算要求(FLOP)とは独立してモデルパラメータサイズをスケーリングすることで、はるかに大きなニューラルネットワークを可能にする。
しかし、現在のdnnフレームワークは、専門家の混合で動的データフローを効果的にサポートできないため、これらのフレームワーク上の実装は、かなりのオーバーヘッドをもたらす回避策を使用する必要がある。
このようなフレームワークの限界に対処するため,DynaMoEというDNNライブラリを紹介した。DynaMoEは動的再コンパイルを用いて,計算資源の活用を最適化し,Mixture of Expertsモデルの動的要求に適応させる。
評価の結果、DynaMoEは1.8倍の高速化を実現し、既存のMoEシステムと比較して2.3倍のモデルサイズをサポートする。
次に、動的再コンパイルによりさらに1.7倍の高速化を実現し、同時にメモリ圧力を低減し、モデル品質を向上させる。
関連論文リスト
- Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。
DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。
本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文 参考訳(メタデータ) (2024-10-31T07:28:22Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。
本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文 参考訳(メタデータ) (2024-07-03T05:17:26Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Transformer Architecture for NetsDB [0.0]
我々はNetsDBで機能するディープラーニングモデルのためのトランスフォーマーのエンドツーエンド実装を作成します。
分散処理、デプロイメント、効率的な推論のために、当社のモデルから重みをロードします。
論文 参考訳(メタデータ) (2024-05-08T04:38:36Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Sparsity-guided Network Design for Frame Interpolation [39.828644638174225]
フレームベースアルゴリズムのための圧縮駆動型ネットワーク設計を提案する。
モデルサイズを大幅に削減するために、スパーシリティ誘導最適化によるモデルプルーニングを活用する。
原型AdaCoFの4分の1の大きさで大幅な性能向上を実現しています。
論文 参考訳(メタデータ) (2022-09-09T23:13:25Z) - AntiDote: Attention-based Dynamic Optimization for Neural Network
Runtime Efficiency [42.00372941618975]
本稿では,ニューラルネットワークの注意機構に基づく動的CNN最適化フレームワークを提案する。
我々の方法では、様々なテストネットワークで無視できる精度の低下で37.4%から54.5%のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-08-14T18:48:13Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - FlexSA: Flexible Systolic Array Architecture for Efficient Pruned DNN
Model Training [1.718730454558804]
一般的なトレーニングアクセラレーターを大きなシストリックアレイでプルーニングすることは、非常に性能的に非効率であることがわかった。
本研究では,シストリックアレイを効率的なプルーニングとトレーニングを行うために,フレキシブルなシストリックアレイアーキテクチャであるFlexSAを提案する。
また、FlexSAのリソースを最大限活用するために、トレーニング作業負荷における行列乗算および累積演算のコンパイルを提案する。
論文 参考訳(メタデータ) (2020-04-27T15:51:20Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。