Fugu-MT 論文翻訳(概要): AutoMoE: Neural Architecture Search for Efficient Sparsely Activated Transformers

論文の概要: AutoMoE: Neural Architecture Search for Efficient Sparsely Activated Transformers

arxiv url: http://arxiv.org/abs/2210.07535v1
Date: Fri, 14 Oct 2022 05:32:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 15:14:46.691153
Title: AutoMoE: Neural Architecture Search for Efficient Sparsely Activated Transformers
Title（参考訳）: automoe: 効率的なスパースアクティベートトランスフォーマーのニューラルネットワークによる探索
Authors: Ganesh Jawahar, Subhabrata Mukherjee, Xiaodong Liu, Young Jin Kim, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Ahmed Hassan Awadallah, Sebastien Bubeck, Jianfeng Gao
Abstract要約: 我々は,効率的に活性化されたサブトランスを探索する新しいフレームワークであるAutoMoEを開発した。 AutoMoEは、(a)高密度かつ疎活性化されたトランスフォーマーモジュールを持つ不均一なサーチスペース設計、(b)重み付けによって大規模なサーチスペースからサンプルされた複数のワークを共同で訓練するSuperNetトレーニング、(c)タスクと計算の間の最適なトレードオフでアーキテクチャを探索する3つのトレーニングフェーズで構成されている。
参考スコア（独自算出の注目度）: 104.0979785739202
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural architecture search (NAS) has demonstrated promising results on identifying efficient Transformer architectures which outperform manually designed ones for natural language tasks like neural machine translation (NMT). Existing NAS methods operate on a space of dense architectures, where all of the sub-architecture weights are activated for every input. Motivated by the recent advances in sparsely activated models like the Mixture-of-Experts (MoE) model, we introduce sparse architectures with conditional computation into the NAS search space. Given this expressive search space which subsumes prior densely activated architectures, we develop a new framework AutoMoE to search for efficient sparsely activated sub-Transformers. AutoMoE-generated sparse models obtain (i) 3x FLOPs reduction over manually designed dense Transformers and (ii) 23% FLOPs reduction over state-of-the-art NAS-generated dense sub-Transformers with parity in BLEU score on benchmark datasets for NMT. AutoMoE consists of three training phases: (a) Heterogeneous search space design with dense and sparsely activated Transformer modules (e.g., how many experts? where to place them? what should be their sizes?); (b) SuperNet training that jointly trains several subnetworks sampled from the large search space by weight-sharing; (c) Evolutionary search for the architecture with the optimal trade-off between task performance and computational constraint like FLOPs and latency. AutoMoE code, data and trained models are available at https://github.com/microsoft/AutoMoE.
Abstract（参考訳）: neural architecture search (nas)は、ニューラルネットワーク翻訳(nmt)のような自然言語タスクのために手動で設計されたものよりも優れたトランスフォーマーアーキテクチャを識別する有望な結果を示している。既存のNAS法は、全ての入力に対して全てのサブアーキテクチャ重みが活性化されるような密集アーキテクチャの空間で動作する。近年,Mixture-of-Experts(MoE)モデルのような疎活性化モデルの進歩により,NAS検索空間に条件付き計算を伴うスパースアーキテクチャを導入する。従来より高密度に活性化されたアーキテクチャを仮定した表現型検索空間を前提として,効率的な疎活性化サブトランスフォーマーを探索する新しいフレームワークであるAutoMoEを開発した。 AutoMoE生成スパースモデル取得 (i)手動設計の高密度変圧器と3倍フロップ低減 (II) NMTのベンチマークデータセット上でのBLEUスコアと同等である最先端NAS生成高密度サブトランスに対するFLOPsの23%削減。 AutoMoEは3つの訓練段階で構成されている。 (a)高密度かつ疎活性化されたトランスフォーマーモジュールによる異種検索空間の設計(例えば、専門家は何人?どこに配置すべきか?サイズは?) b) 重み共有により大規模検索空間からサンプリングされた複数のサブネットワークを共同で訓練するスーパーネットトレーニング c) タスクパフォーマンスとフロップやレイテンシといった計算制約の間の最適なトレードオフによるアーキテクチャの進化的探索。 AutoMoEのコード、データ、トレーニングされたモデルはhttps://github.com/microsoft/AutoMoEで入手できる。

関連論文リスト

ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。 ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文参考訳（メタデータ） (2025-03-10T03:15:54Z)
UniMoD: Efficient Unified Multimodal Transformers with Mixture-of-Depths [17.68867710994329]
UniMoDは、各タスクに個別のルータを使用して、どのトークンをプルーニングすべきかを決定するタスク対応トークンプルーニング手法である。提案手法をShow-oとEmu3に適用し,Show-oでは約15%,Emu3では40%のトレーニングFLOPを削減した。
論文参考訳（メタデータ） (2025-02-10T13:52:52Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。 MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。 MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文参考訳（メタデータ） (2024-07-09T08:50:18Z)
MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文参考訳（メタデータ） (2024-05-25T03:24:32Z)
XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2024-02-27T08:18:02Z)
Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters [11.05223262950967]
最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
論文参考訳（メタデータ） (2024-02-01T18:16:04Z)
Approximating Two-Layer Feedforward Networks for Efficient Transformers [15.793406740545024]
製品キーメモリ(PKM)を含む2層NNを近似する様々な手法を統合する汎用フレームワークを提案する。 WikiText-103とenwiki8の両方のデータセットで2つの異なるスケールで、当社のMoEがTransformer-XLと競合していることが示されています。このことは、MoE が極めて大きな LM だけでなく、資源効率の高い LM にも関係していることを示している。
論文参考訳（メタデータ） (2023-10-16T21:23:16Z)
MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。 2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文参考訳（メタデータ） (2023-08-10T17:37:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。