Fugu-MT 論文翻訳(概要): Optimizing Mixture of Experts using Dynamic Recompilations

論文の概要: Optimizing Mixture of Experts using Dynamic Recompilations

arxiv url: http://arxiv.org/abs/2205.01848v1
Date: Wed, 4 May 2022 02:05:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-06 02:54:07.221318
Title: Optimizing Mixture of Experts using Dynamic Recompilations
Title（参考訳）: 動的再コンパイルによるエキスパートの混合の最適化
Authors: Ferdinand Kossmann, Zhihao Jia, Alex Aiken
Abstract要約: 我々はDynaMoEについて述べる。DynaMoEは動的再コンパイルを用いて計算資源の利用を最適化し、Mixture of Expertsモデルの動的ニーズに適応するライブラリである。評価の結果、DynaMoEは1.8倍の高速化を実現し、既存のMoEシステムと比較して2.3倍のモデルサイズをサポートすることがわかった。次に、動的再コンパイルによりさらに1.7倍の高速化を実現し、同時にメモリ圧力を低減し、モデル品質を向上する最適化を提案する。
参考スコア（独自算出の注目度）: 32.64805486227594
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Mixture of Experts architecture allows for outrageously large neural networks by scaling model parameter size independently from computational demand (FLOPs). However, current DNN frameworks cannot effectively support the dynamic data flow in Mixture of Experts, and implementations on top of these frameworks need to use workarounds that introduce significant overheads. To address the limitation of these frameworks, we present DynaMoE, a DNN library that uses dynamic recompilations to optimize and adapt the use of computational resources to the dynamic needs of Mixture of Experts models. Our evaluation shows that DynaMoE achieves a 1.8x speedup and supports 2.3x larger model sizes when compared to existing MoE systems, even when not using recompilations. We then present further optimizations enabled by dynamic recompilations that yield an additional 1.7x speedup while simultaneously reducing memory pressure and improving model quality.
Abstract（参考訳）: Mixture of Expertsアーキテクチャは、計算要求(FLOP)とは独立してモデルパラメータサイズをスケーリングすることで、はるかに大きなニューラルネットワークを可能にする。しかし、現在のdnnフレームワークは、専門家の混合で動的データフローを効果的にサポートできないため、これらのフレームワーク上の実装は、かなりのオーバーヘッドをもたらす回避策を使用する必要がある。このようなフレームワークの限界に対処するため,DynaMoEというDNNライブラリを紹介した。DynaMoEは動的再コンパイルを用いて,計算資源の活用を最適化し,Mixture of Expertsモデルの動的要求に適応させる。評価の結果、DynaMoEは1.8倍の高速化を実現し、既存のMoEシステムと比較して2.3倍のモデルサイズをサポートする。次に、動的再コンパイルによりさらに1.7倍の高速化を実現し、同時にメモリ圧力を低減し、モデル品質を向上させる。

関連論文リスト

Towards Adaptive Deep Learning: Model Elasticity via Prune-and-Grow CNN Architectures [0.0]
この論文では、利用可能なハードウェアリソースに基づいて、CNNが計算複雑性を動的に調整できる方法を探究する。我々は,実行時にキャパシティを拡張可能な適応型CNNアーキテクチャを導入し,性能と資源利用の効率よくバランスをとる。
論文参考訳（メタデータ） (2025-05-16T10:06:55Z)
Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。 DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文参考訳（メタデータ） (2024-10-31T07:28:22Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
TiM4Rec: An Efficient Sequential Recommendation Model Based on Time-Aware Structured State Space Duality Model [4.414031127599392]
線形計算複雑性を特徴とするマンバアーキテクチャが出現した。 Mamba 1のハードウェア対応アルゴリズムは、現代の行列計算ユニットを効率的に活用するのに苦労している。本稿では,SSDアーキテクチャの低次元性能損失を改善するため,新しいレコメンデーションバックボーンモデルTiM4Recを提案する。
論文参考訳（メタデータ） (2024-09-24T15:26:38Z)
Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文参考訳（メタデータ） (2024-07-03T05:17:26Z)
A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文参考訳（メタデータ） (2024-05-31T21:47:05Z)
Transformer Architecture for NetsDB [0.0]
我々はNetsDBで機能するディープラーニングモデルのためのトランスフォーマーのエンドツーエンド実装を作成します。分散処理、デプロイメント、効率的な推論のために、当社のモデルから重みをロードします。
論文参考訳（メタデータ） (2024-05-08T04:38:36Z)
Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。 PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文参考訳（メタデータ） (2023-04-22T14:09:14Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Sparsity-guided Network Design for Frame Interpolation [39.828644638174225]
フレームベースアルゴリズムのための圧縮駆動型ネットワーク設計を提案する。モデルサイズを大幅に削減するために、スパーシリティ誘導最適化によるモデルプルーニングを活用する。原型AdaCoFの4分の1の大きさで大幅な性能向上を実現しています。
論文参考訳（メタデータ） (2022-09-09T23:13:25Z)
AntiDote: Attention-based Dynamic Optimization for Neural Network Runtime Efficiency [42.00372941618975]
本稿では,ニューラルネットワークの注意機構に基づく動的CNN最適化フレームワークを提案する。我々の方法では、様々なテストネットワークで無視できる精度の低下で37.4%から54.5%のFLOPを削減できる。
論文参考訳（メタデータ） (2020-08-14T18:48:13Z)
Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。 CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文参考訳（メタデータ） (2020-06-12T15:07:08Z)
FlexSA: Flexible Systolic Array Architecture for Efficient Pruned DNN Model Training [1.718730454558804]
一般的なトレーニングアクセラレーターを大きなシストリックアレイでプルーニングすることは、非常に性能的に非効率であることがわかった。本研究では,シストリックアレイを効率的なプルーニングとトレーニングを行うために,フレキシブルなシストリックアレイアーキテクチャであるFlexSAを提案する。また、FlexSAのリソースを最大限活用するために、トレーニング作業負荷における行列乗算および累積演算のコンパイルを提案する。
論文参考訳（メタデータ） (2020-04-27T15:51:20Z)
A Generic Network Compression Framework for Sequential Recommender Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。 CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文参考訳（メタデータ） (2020-04-21T08:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。