論文の概要: Towards More Effective and Economic Sparsely-Activated Model
- arxiv url: http://arxiv.org/abs/2110.07431v1
- Date: Thu, 14 Oct 2021 14:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 13:55:22.608546
- Title: Towards More Effective and Economic Sparsely-Activated Model
- Title(参考訳): より効果的で経済的なスパースアクティベートモデルに向けて
- Authors: Hao Jiang, Ke Zhan, Jianwei Qu, Yongkang Wu, Zhaoye Fei, Xinyu Zhang,
Lei Chen, Zhicheng Dou, Xipeng Qiu, Zikai Guo, Ruofei Lai, Jiawen Wu, Enrui
Hu, Yinxia Zhang, Yantao Jia, Fan Yu, Zhao Cao
- Abstract要約: 同じデバイス上で複数の専門家を活性化する効率的な階層的ルーティング機構を提案する。
我々の手法は、非常に大きなスパースモデルのトレーニングに光を当て、実験により、我々のモデルが大幅な性能向上を達成できることを証明した。
- 参考スコア(独自算出の注目度): 31.979312090196423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sparsely-activated models have achieved great success in natural language
processing through large-scale parameters and relatively low computational
cost, and gradually become a feasible technique for training and implementing
extremely large models. Due to the limit of communication cost, activating
multiple experts is hardly affordable during training and inference. Therefore,
previous work usually activate just one expert at a time to alleviate
additional communication cost. Such routing mechanism limits the upper bound of
model performance. In this paper, we first investigate a phenomenon that
increasing the number of activated experts can boost the model performance with
higher sparse ratio. To increase the number of activated experts without an
increase in computational cost, we propose SAM (Switch and Mixture) routing, an
efficient hierarchical routing mechanism that activates multiple experts in a
same device (GPU). Our methods shed light on the training of extremely large
sparse models and experiments prove that our models can achieve significant
performance gain with great efficiency improvement.
- Abstract(参考訳): スパースアクティベートされたモデルは、大規模パラメータと比較的低い計算コストを通じて自然言語処理において大きな成功を収め、徐々に非常に大きなモデルを訓練し実装するための実現可能な技術となった。
コミュニケーションコストの限界のため、訓練や推論において、複数の専門家の活性化は手頃な価格ではない。
したがって、以前の作業は通常、追加の通信コストを軽減するために、一度に1人の専門家だけを活性化する。
このようなルーティング機構はモデル性能の上限を制限する。
本稿では,まず,活性化専門家の増加によってモデル性能が向上し,スパース比が向上する現象について検討する。
演算コストを増大させることなくアクティベートされた専門家の数を増やすために,同一デバイス(GPU)で複数の専門家を活性化する効率的な階層的ルーティング機構であるSAM(Switch and Mixture)ルーティングを提案する。
提案手法は,非常に大きなスパースモデルのトレーニングに光を当て,実験により,我々のモデルが大幅な効率向上を達成できることを示す。
関連論文リスト
- Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion [4.716845031095804]
トランスフォーマーモデルは、高い計算要求のため、実用的な制限に直面する可能性がある。
このようなモデルは、ネットワークの一部を等価なMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。
本研究では,基本モデルの活性化間隔を適切に正規化することにより,変換効率を大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2023-10-06T16:34:51Z) - One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文 参考訳(メタデータ) (2023-05-23T13:44:09Z) - EBJR: Energy-Based Joint Reasoning for Adaptive Inference [10.447353952054492]
最先端のディープラーニングモデルは、さまざまなベンチマークで大きなパフォーマンスレベルを達成した。
一方、軽量アーキテクチャは適度な精度を実現しますが、より望ましいレイテンシを実現しています。
本稿では,大規模高精度モデルと小型高速モデルとを併用する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-20T02:33:31Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - EfficientPose: Scalable single-person pose estimation [3.325625311163864]
一人称ポーズ推定のための新しい畳み込みニューラルネットワークアーキテクチャであるEfficientPoseを提案する。
我々のトップパフォーマンスモデルは、低複雑さのConvNetを用いて、シングルパーソンMPIIにおける最先端の精度を実現する。
複雑さと効率が低いため、EfficientPoseはメモリフットプリントと計算コストを制限し、エッジデバイス上の現実世界のアプリケーションを可能にする。
論文 参考訳(メタデータ) (2020-04-25T16:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。