論文の概要: AutoMoE: Neural Architecture Search for Efficient Sparsely Activated
Transformers
- arxiv url: http://arxiv.org/abs/2210.07535v1
- Date: Fri, 14 Oct 2022 05:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:14:46.691153
- Title: AutoMoE: Neural Architecture Search for Efficient Sparsely Activated
Transformers
- Title(参考訳): automoe: 効率的なスパースアクティベートトランスフォーマーのニューラルネットワークによる探索
- Authors: Ganesh Jawahar, Subhabrata Mukherjee, Xiaodong Liu, Young Jin Kim,
Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Ahmed Hassan Awadallah,
Sebastien Bubeck, Jianfeng Gao
- Abstract要約: 我々は,効率的に活性化されたサブトランスを探索する新しいフレームワークであるAutoMoEを開発した。
AutoMoEは、(a)高密度かつ疎活性化されたトランスフォーマーモジュールを持つ不均一なサーチスペース設計、(b)重み付けによって大規模なサーチスペースからサンプルされた複数のワークを共同で訓練するSuperNetトレーニング、(c)タスクと計算の間の最適なトレードオフでアーキテクチャを探索する3つのトレーニングフェーズで構成されている。
- 参考スコア(独自算出の注目度): 104.0979785739202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural architecture search (NAS) has demonstrated promising results on
identifying efficient Transformer architectures which outperform manually
designed ones for natural language tasks like neural machine translation (NMT).
Existing NAS methods operate on a space of dense architectures, where all of
the sub-architecture weights are activated for every input. Motivated by the
recent advances in sparsely activated models like the Mixture-of-Experts (MoE)
model, we introduce sparse architectures with conditional computation into the
NAS search space. Given this expressive search space which subsumes prior
densely activated architectures, we develop a new framework AutoMoE to search
for efficient sparsely activated sub-Transformers. AutoMoE-generated sparse
models obtain (i) 3x FLOPs reduction over manually designed dense Transformers
and (ii) 23% FLOPs reduction over state-of-the-art NAS-generated dense
sub-Transformers with parity in BLEU score on benchmark datasets for NMT.
AutoMoE consists of three training phases: (a) Heterogeneous search space
design with dense and sparsely activated Transformer modules (e.g., how many
experts? where to place them? what should be their sizes?); (b) SuperNet
training that jointly trains several subnetworks sampled from the large search
space by weight-sharing; (c) Evolutionary search for the architecture with the
optimal trade-off between task performance and computational constraint like
FLOPs and latency. AutoMoE code, data and trained models are available at
https://github.com/microsoft/AutoMoE.
- Abstract(参考訳): neural architecture search (nas)は、ニューラルネットワーク翻訳(nmt)のような自然言語タスクのために手動で設計されたものよりも優れたトランスフォーマーアーキテクチャを識別する有望な結果を示している。
既存のNAS法は、全ての入力に対して全てのサブアーキテクチャ重みが活性化されるような密集アーキテクチャの空間で動作する。
近年,Mixture-of-Experts(MoE)モデルのような疎活性化モデルの進歩により,NAS検索空間に条件付き計算を伴うスパースアーキテクチャを導入する。
従来より高密度に活性化されたアーキテクチャを仮定した表現型検索空間を前提として,効率的な疎活性化サブトランスフォーマーを探索する新しいフレームワークであるAutoMoEを開発した。
AutoMoE生成スパースモデル取得
(i)手動設計の高密度変圧器と3倍フロップ低減
(II) NMTのベンチマークデータセット上でのBLEUスコアと同等である最先端NAS生成高密度サブトランスに対するFLOPsの23%削減。
AutoMoEは3つの訓練段階で構成されている。
(a)高密度かつ疎活性化されたトランスフォーマーモジュールによる異種検索空間の設計(例えば、専門家は何人?どこに配置すべきか?サイズは?)
b) 重み共有により大規模検索空間からサンプリングされた複数のサブネットワークを共同で訓練するスーパーネットトレーニング
c) タスクパフォーマンスとフロップやレイテンシといった計算制約の間の最適なトレードオフによるアーキテクチャの進化的探索。
AutoMoEのコード、データ、トレーニングされたモデルはhttps://github.com/microsoft/AutoMoEで入手できる。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-02-27T08:18:02Z) - Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters [11.05223262950967]
最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。
本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。
アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
論文 参考訳(メタデータ) (2024-02-01T18:16:04Z) - Approximating Two-Layer Feedforward Networks for Efficient Transformers [15.793406740545024]
製品キーメモリ(PKM)を含む2層NNを近似する様々な手法を統合する汎用フレームワークを提案する。
WikiText-103とenwiki8の両方のデータセットで2つの異なるスケールで、当社のMoEがTransformer-XLと競合していることが示されています。
このことは、MoE が極めて大きな LM だけでなく、資源効率の高い LM にも関係していることを示している。
論文 参考訳(メタデータ) (2023-10-16T21:23:16Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。