Fugu-MT 論文翻訳(概要): AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for Efficient Neural Machine Translation

論文の概要: AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for Efficient Neural Machine Translation

arxiv url: http://arxiv.org/abs/2210.07535v2
Date: Wed, 7 Jun 2023 22:41:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 20:19:12.168596
Title: AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for Efficient Neural Machine Translation
Title（参考訳）: automoe: 効率的なニューラルマシン翻訳のための適応計算を伴う異種混合処理
Authors: Ganesh Jawahar, Subhabrata Mukherjee, Xiaodong Liu, Young Jin Kim, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Ahmed Hassan Awadallah, Sebastien Bubeck, Jianfeng Gao
Abstract要約: ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
参考スコア（独自算出の注目度）: 104.0979785739202
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mixture-of-Expert (MoE) models have obtained state-of-the-art performance in Neural Machine Translation (NMT) tasks. Existing works in MoE mostly consider a homogeneous design where the same number of experts of the same size are placed uniformly throughout the network. Furthermore, existing MoE works do not consider computational constraints (e.g., FLOPs, latency) to guide their design. To this end, we develop AutoMoE -- a framework for designing heterogeneous MoE's under computational constraints. AutoMoE leverages Neural Architecture Search (NAS) to obtain efficient sparse MoE sub-transformers with 4x inference speedup (CPU) and FLOPs reduction over manually designed Transformers, with parity in BLEU score over dense Transformer and within 1 BLEU point of MoE SwitchTransformer, on aggregate over benchmark datasets for NMT. Heterogeneous search space with dense and sparsely activated Transformer modules (e.g., how many experts? where to place them? what should be their sizes?) allows for adaptive compute -- where different amounts of computations are used for different tokens in the input. Adaptivity comes naturally from routing decisions which send tokens to experts of different sizes. AutoMoE code, data, and trained models are available at https://aka.ms/AutoMoE.
Abstract（参考訳）: ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。既存のMoEの作業は、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。さらに、既存のMoEの作業は、計算上の制約(FLOP、遅延など)を考慮していない。この目的のために,不均一なMoEを計算制約下で設計するフレームワークであるAutoMoEを開発した。 automoeは、ニューラルネットワーク検索(nas)を活用して、4倍の推論スピードアップ(cpu)を持つ効率的なスパースmoeサブトランスフォーマーと、密閉トランスフォーマーよりもbleuスコアが同等で、nmt用のベンチマークデータセットを集約したmoeswitchtransformerの1ブルーポイント以内の手動設計トランスフォーマーをフラップする。密度が高く、疎に活性化されるトランスフォーマーモジュール(例えば、何人の専門家が配置するか?サイズは?)を持つ不均一な探索空間では、入力内の異なるトークンに対して異なる計算量を使用することができる。適応性は、異なるサイズの専門家にトークンを送信するルーティング決定から生まれます。 AutoMoEのコード、データ、トレーニングされたモデルはhttps://aka.ms/AutoMoE.com/で入手できる。

関連論文リスト

ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。 ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文参考訳（メタデータ） (2025-03-10T03:15:54Z)
UniMoD: Efficient Unified Multimodal Transformers with Mixture-of-Depths [17.68867710994329]
UniMoDは、各タスクに個別のルータを使用して、どのトークンをプルーニングすべきかを決定するタスク対応トークンプルーニング手法である。提案手法をShow-oとEmu3に適用し,Show-oでは約15%,Emu3では40%のトレーニングFLOPを削減した。
論文参考訳（メタデータ） (2025-02-10T13:52:52Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。 MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。 MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文参考訳（メタデータ） (2024-07-09T08:50:18Z)
MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文参考訳（メタデータ） (2024-05-25T03:24:32Z)
XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2024-02-27T08:18:02Z)
Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters [11.05223262950967]
最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
論文参考訳（メタデータ） (2024-02-01T18:16:04Z)
Approximating Two-Layer Feedforward Networks for Efficient Transformers [15.793406740545024]
製品キーメモリ(PKM)を含む2層NNを近似する様々な手法を統合する汎用フレームワークを提案する。 WikiText-103とenwiki8の両方のデータセットで2つの異なるスケールで、当社のMoEがTransformer-XLと競合していることが示されています。このことは、MoE が極めて大きな LM だけでなく、資源効率の高い LM にも関係していることを示している。
論文参考訳（メタデータ） (2023-10-16T21:23:16Z)
MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。 2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文参考訳（メタデータ） (2023-08-10T17:37:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。