論文の概要: AutoMoE: Neural Architecture Search for Efficient Sparsely Activated
Transformers
- arxiv url: http://arxiv.org/abs/2210.07535v1
- Date: Fri, 14 Oct 2022 05:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:14:46.691153
- Title: AutoMoE: Neural Architecture Search for Efficient Sparsely Activated
Transformers
- Title(参考訳): automoe: 効率的なスパースアクティベートトランスフォーマーのニューラルネットワークによる探索
- Authors: Ganesh Jawahar, Subhabrata Mukherjee, Xiaodong Liu, Young Jin Kim,
Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Ahmed Hassan Awadallah,
Sebastien Bubeck, Jianfeng Gao
- Abstract要約: 我々は,効率的に活性化されたサブトランスを探索する新しいフレームワークであるAutoMoEを開発した。
AutoMoEは、(a)高密度かつ疎活性化されたトランスフォーマーモジュールを持つ不均一なサーチスペース設計、(b)重み付けによって大規模なサーチスペースからサンプルされた複数のワークを共同で訓練するSuperNetトレーニング、(c)タスクと計算の間の最適なトレードオフでアーキテクチャを探索する3つのトレーニングフェーズで構成されている。
- 参考スコア(独自算出の注目度): 104.0979785739202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural architecture search (NAS) has demonstrated promising results on
identifying efficient Transformer architectures which outperform manually
designed ones for natural language tasks like neural machine translation (NMT).
Existing NAS methods operate on a space of dense architectures, where all of
the sub-architecture weights are activated for every input. Motivated by the
recent advances in sparsely activated models like the Mixture-of-Experts (MoE)
model, we introduce sparse architectures with conditional computation into the
NAS search space. Given this expressive search space which subsumes prior
densely activated architectures, we develop a new framework AutoMoE to search
for efficient sparsely activated sub-Transformers. AutoMoE-generated sparse
models obtain (i) 3x FLOPs reduction over manually designed dense Transformers
and (ii) 23% FLOPs reduction over state-of-the-art NAS-generated dense
sub-Transformers with parity in BLEU score on benchmark datasets for NMT.
AutoMoE consists of three training phases: (a) Heterogeneous search space
design with dense and sparsely activated Transformer modules (e.g., how many
experts? where to place them? what should be their sizes?); (b) SuperNet
training that jointly trains several subnetworks sampled from the large search
space by weight-sharing; (c) Evolutionary search for the architecture with the
optimal trade-off between task performance and computational constraint like
FLOPs and latency. AutoMoE code, data and trained models are available at
https://github.com/microsoft/AutoMoE.
- Abstract(参考訳): neural architecture search (nas)は、ニューラルネットワーク翻訳(nmt)のような自然言語タスクのために手動で設計されたものよりも優れたトランスフォーマーアーキテクチャを識別する有望な結果を示している。
既存のNAS法は、全ての入力に対して全てのサブアーキテクチャ重みが活性化されるような密集アーキテクチャの空間で動作する。
近年,Mixture-of-Experts(MoE)モデルのような疎活性化モデルの進歩により,NAS検索空間に条件付き計算を伴うスパースアーキテクチャを導入する。
従来より高密度に活性化されたアーキテクチャを仮定した表現型検索空間を前提として,効率的な疎活性化サブトランスフォーマーを探索する新しいフレームワークであるAutoMoEを開発した。
AutoMoE生成スパースモデル取得
(i)手動設計の高密度変圧器と3倍フロップ低減
(II) NMTのベンチマークデータセット上でのBLEUスコアと同等である最先端NAS生成高密度サブトランスに対するFLOPsの23%削減。
AutoMoEは3つの訓練段階で構成されている。
(a)高密度かつ疎活性化されたトランスフォーマーモジュールによる異種検索空間の設計(例えば、専門家は何人?どこに配置すべきか?サイズは?)
b) 重み共有により大規模検索空間からサンプリングされた複数のサブネットワークを共同で訓練するスーパーネットトレーニング
c) タスクパフォーマンスとフロップやレイテンシといった計算制約の間の最適なトレードオフによるアーキテクチャの進化的探索。
AutoMoEのコード、データ、トレーニングされたモデルはhttps://github.com/microsoft/AutoMoEで入手できる。
関連論文リスト
- Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture
of Adapters [12.421601877508223]
最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。
本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。
アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
論文 参考訳(メタデータ) (2024-02-01T18:16:04Z) - Approximating Two-Layer Feedforward Networks for Efficient Transformers [15.793406740545024]
製品キーメモリ(PKM)を含む2層NNを近似する様々な手法を統合する汎用フレームワークを提案する。
WikiText-103とenwiki8の両方のデータセットで2つの異なるスケールで、当社のMoEがTransformer-XLと競合していることが示されています。
このことは、MoE が極めて大きな LM だけでなく、資源効率の高い LM にも関係していることを示している。
論文 参考訳(メタデータ) (2023-10-16T21:23:16Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Mixture of Attention Heads: Selecting Attention Heads Per Token [40.04159325505842]
Mixture of Attention Heads (MoA)は、マルチヘッドアテンションとMoEメカニズムを組み合わせた新しいアーキテクチャである。
MoAは、標準的なマルチヘッドアテンション層よりも強力なパフォーマンスを実現している。
MoAはまた、ヘッドのユーティリティを自動的に区別し、モデルの解釈可能性について議論するための新しい視点を提供する。
論文 参考訳(メタデータ) (2022-10-11T04:54:05Z) - Gating Dropout: Communication-efficient Regularization for Sparsely
Activated Transformers [78.77361169167149]
本稿では,トークンがゲーティングネットワークを無視してローカルマシンに留まることを可能にするEmphGating Dropoutを提案する。
従来のドロップアウトと同様に、Gating Dropoutはトレーニング中に正規化効果があり、その結果、一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-28T05:12:43Z) - Mixed Transformer U-Net For Medical Image Segmentation [14.046456257175237]
本稿では,相互親和性学習と親和性学習を同時に行うためのMTMを提案する。
MTMを用いて、正確な医用画像分割のためのMixed Transformer U-Net(MT-UNet)と呼ばれるU字型モデルを構築した。
論文 参考訳(メタデータ) (2021-11-08T09:03:46Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Dynamic Multi-Branch Layers for On-Device Neural Machine Translation [53.637479651600586]
動的マルチブランチ層を用いたオンデバイスニューラルマシン翻訳(NMT)システムの性能向上を提案する。
具体的には、トレーニングと推論中に1つの分岐のみを活性化した層方向動的マルチブランチネットワークを設計する。
ほぼ同じ計算コストで、WMT14英語-ドイツ語翻訳タスクでは最大1.7 BLEUポイント、WMT20中国語-英語翻訳タスクでは1.8 BLEUポイントの改善を実現します。
論文 参考訳(メタデータ) (2021-05-14T07:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。