論文の概要: TA-MoE: Topology-Aware Large Scale Mixture-of-Expert Training
- arxiv url: http://arxiv.org/abs/2302.09915v1
- Date: Mon, 20 Feb 2023 11:18:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 15:43:49.518044
- Title: TA-MoE: Topology-Aware Large Scale Mixture-of-Expert Training
- Title(参考訳): ta-moe:トポロジーを意識した大規模訓練
- Authors: Chang Chen, Min Li, Zhihua Wu, Dianhai Yu, Chao Yang
- Abstract要約: 大規模MoEトレーニングのためのトポロジ対応ルーティング戦略であるTA-MoEを提案する。
TA-MoEは,様々なハードウェアやモデル構成において,その性能を大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 18.68993910156101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparsely gated Mixture-of-Expert (MoE) has demonstrated its effectiveness in
scaling up deep neural networks to an extreme scale. Despite that numerous
efforts have been made to improve the performance of MoE from the model design
or system optimization perspective, existing MoE dispatch patterns are still
not able to fully exploit the underlying heterogeneous network environments. In
this paper, we propose TA-MoE, a topology-aware routing strategy for
large-scale MoE trainging, from a model-system co-design perspective, which can
dynamically adjust the MoE dispatch pattern according to the network topology.
Based on communication modeling, we abstract the dispatch problem into an
optimization objective and obtain the approximate dispatch pattern under
different topologies. On top of that, we design a topology-aware auxiliary
loss, which can adaptively route the data to fit in the underlying topology
without sacrificing the model accuracy. Experiments show that TA-MoE can
substantially outperform its counterparts on various hardware and model
configurations, with roughly 1.01x-1.61x, 1.01x-4.77x, 1.25x-1.54x improvements
over the popular DeepSpeed-MoE, FastMoE and FasterMoE.
- Abstract(参考訳): sparsely gated mixture-of-expert (moe)は、ディープニューラルネットワークを極端な規模にスケールアップする効果を実証している。
モデル設計やシステム最適化の観点から、MoEの性能を改善するために多くの努力がなされているが、既存のMoEディスパッチパターンは、基盤となる異種ネットワーク環境を完全に活用することはできない。
本稿では,ネットワークトポロジに従って動的にmoeディスパッチパターンを調整できるモデルシステム設計の観点から,大規模moeトレーニングのためのトポロジ認識ルーティング戦略であるta-moeを提案する。
通信モデルに基づいて,提案課題を最適化対象に抽象化し,異なるトポロジの下で近似的なディスパッチパターンを得る。
その上,モデルの精度を犠牲にすることなく,基盤となるトポロジに適合するように適応的にデータをルーティングできるトポロジ認識補助損失の設計を行う。
実験の結果、TA-MoEは、DeepSpeed-MoE、FastMoE、FasterMoEよりも約1.01x-1.61x、1.01x-4.77x、1.25x-1.54xの改善により、様々なハードウェアやモデル構成で大幅に性能が向上した。
関連論文リスト
- A Collaborative Model-driven Network for MRI Reconstruction [9.441882492801174]
本稿では,ディープラーニング手法の性能向上のためのモデル駆動型ネットワークを提案する。
協調型モデル駆動ネットワークは、モデル駆動型ワーク、アテンションモジュール、修正モジュールで構成される。
実験の結果、計算の複雑さが増すことなく大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-02-04T07:29:00Z) - Compositional Generative Inverse Design [69.22782875567547]
入力変数を設計して目的関数を最適化する逆設計は重要な問題である。
拡散モデルにより得られた学習エネルギー関数を最適化することにより、そのような逆例を避けることができることを示す。
N-body 相互作用タスクと2次元多面体設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,初期状態と境界形状を設計できることを示す。
論文 参考訳(メタデータ) (2024-01-24T01:33:39Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Analyzing and Improving the Training Dynamics of Diffusion Models [38.547188041252575]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文 参考訳(メタデータ) (2023-12-05T11:55:47Z) - Domain Generalization via Balancing Training Difficulty and Model
Capability [61.053202176230904]
ドメイン一般化(Domain Generalization, DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。
最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされている。
我々は、モデルの能力とサンプルの難易度の間のシーソーのバランスをとることで、ミスアライメントに対処するMomentum DifficultyフレームワークであるMoDifyを設計する。
論文 参考訳(メタデータ) (2023-09-02T07:09:23Z) - FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文 参考訳(メタデータ) (2023-04-08T07:34:26Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to
Power Next-Generation AI Scale [27.684722514336546]
DeepSpeedライブラリの一部として,エンドツーエンドのMoEトレーニングおよび推論ソリューションであるDeepSpeed-MoEを紹介する。
DeepSpeed-MoEは、高品質の高密度モデルに比べて最大4.5倍高速で9倍の推論が可能な大規模なMoEモデルを提供するために、前例のないスケールと効率を提供する。
論文 参考訳(メタデータ) (2022-01-14T18:36:04Z) - SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture
of Experts [29.582683923988203]
Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。
本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。
新しいルータアーキテクチャは、共有埋め込みネットワークからの情報を同時に利用できるSpeechMoEで使用されている。
論文 参考訳(メタデータ) (2021-05-07T02:38:23Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。