論文の概要: SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture
of Experts
- arxiv url: http://arxiv.org/abs/2105.03036v1
- Date: Fri, 7 May 2021 02:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 22:06:15.771071
- Title: SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture
of Experts
- Title(参考訳): speechmoe: エキスパートのダイナミックルーティング混合による大規模音響モデルへのスケーリング
- Authors: Zhao You, Shulin Feng, Dan Su and Dong Yu
- Abstract要約: Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。
本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。
新しいルータアーキテクチャは、共有埋め込みネットワークからの情報を同時に利用できるSpeechMoEで使用されている。
- 参考スコア(独自算出の注目度): 29.582683923988203
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recently, Mixture of Experts (MoE) based Transformer has shown promising
results in many domains. This is largely due to the following advantages of
this architecture: firstly, MoE based Transformer can increase model capacity
without computational cost increasing both at training and inference time.
Besides, MoE based Transformer is a dynamic network which can adapt to the
varying complexity of input instances in realworld applications. In this work,
we explore the MoE based model for speech recognition, named SpeechMoE. To
further control the sparsity of router activation and improve the diversity of
gate values, we propose a sparsity L1 loss and a mean importance loss
respectively. In addition, a new router architecture is used in SpeechMoE which
can simultaneously utilize the information from a shared embedding network and
the hierarchical representation of different MoE layers. Experimental results
show that SpeechMoE can achieve lower character error rate (CER) with
comparable computation cost than traditional static networks, providing
7.0%-23.0% relative CER improvements on four evaluation datasets.
- Abstract(参考訳): 最近、Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。
第一に、moeベースのトランスフォーマーは、トレーニングと推論の両方で計算コストを増加させることなく、モデルの容量を増加させることができる。
さらに、MoEベースのTransformerは、現実世界のアプリケーションにおける入力インスタンスの複雑さの変化に適応できる動的ネットワークである。
本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。
ルータの活性化のスパース性をさらに制御し、ゲート値の多様性を向上させるため、スパース性l1損失と平均重要損失をそれぞれ提案する。
さらに、新たなルータアーキテクチャが speechmoe で使用されており、共有組み込みネットワークからの情報と異なるmoe層の階層表現を同時に利用できる。
実験の結果,従来の静的ネットワークに比べて低いキャラクタエラー率 (cer) を達成でき,4つの評価データセットにおいて7.0%-23.0%の相対的なcer改善が得られた。
関連論文リスト
- ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing [28.736973273162675]
計算予算を増大させることなく、モデルキャパシティをスケールアップするために、緩やかに活性化されたMixture-of-Experts (MoE)モデルが広く採用されている。
我々は,従来のTopK+Softmaxルーティングの簡易かつ効果的なドロップイン置換を提供する,完全に微分可能なMoEアーキテクチャであるReMoEを提案する。
ReMoEは、さまざまなモデルサイズ、専門家数、粒度のレベルにおいて、バニラTopKのMoEを一貫して上回る。
論文 参考訳(メタデータ) (2024-12-19T10:21:20Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。
提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T08:34:21Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - TA-MoE: Topology-Aware Large Scale Mixture-of-Expert Training [18.68993910156101]
大規模MoEトレーニングのためのトポロジ対応ルーティング戦略であるTA-MoEを提案する。
TA-MoEは,様々なハードウェアやモデル構成において,その性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-02-20T11:18:24Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - Building a great multi-lingual teacher with sparsely-gated mixture of
experts for speech recognition [13.64861164899787]
Mixture of Experts (MoE) は、計算量が少ないネットワーク容量を拡大することができる。
本稿では,S2S-T(Sequence-to-Sequence Transformer)とT-T(Transformer Transducer)の2種類のネットワークに適用する。
論文 参考訳(メタデータ) (2021-12-10T20:37:03Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。