論文の概要: SADMoE: Exploiting Activation Sparsity with Dynamic-k Gating
- arxiv url: http://arxiv.org/abs/2310.04361v2
- Date: Mon, 26 Feb 2024 11:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 04:28:02.502857
- Title: SADMoE: Exploiting Activation Sparsity with Dynamic-k Gating
- Title(参考訳): SADMoE: Dynamic-k Gating によるアクティベーションスパシティの爆発
- Authors: Filip Szatkowski, Bartosz W\'ojcik, Miko{\l}aj Pi\'orczy\'nski, Kamil
Adamczewski
- Abstract要約: トランスフォーマーモデルは、ネットワークの一部をMixture-of-Experts層に変換することで、推論コストを削減するために利用することができる。
本稿では,活性化空間化によるMoE変換の効率化について述べる。
また,より効果的な動的k専門家選択ルールを提案する。
- 参考スコア(独自算出の注目度): 3.74142789780782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models, despite their impressive performance, often face
practical limitations due to their high computational requirements. At the same
time, such models exhibit significant activation sparsity, which can be
leveraged to reduce the inference cost by transforming parts of the network
into Mixture-of-Experts (MoE) layers. However, despite the crucial role of
activation sparsity, its impact on this process remains unexplored. In this
paper, we enhance the efficiency of MoE conversion through activation sparsity
enforcement. Moreover, motivated by the high variance in the number of
activated neurons, we propose a more effective dynamic-k expert selection rule
that adjusts the number of executed experts on a per-token basis. Finally, we
extend this approach to multi-head attention projections, which results in even
further savings. The proposed method, Sparsified Activation Dynamic-k
Mixture-of-Experts (SADMoE), outperforms existing approaches on common NLP and
vision tasks, allowing us to save up to 60% of inference cost without
significantly affecting model performance.
- Abstract(参考訳): トランスフォーマーモデルは、優れた性能にもかかわらず、しばしば高い計算要求のために実用的な制限に直面している。
同時に、これらのモデルは、ネットワークの一部をMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。
しかしながら、活性化空間が重要な役割を担っているにもかかわらず、このプロセスに対する影響は未解明のままである。
本稿では,活性化空間化によるMoE変換の効率化について述べる。
さらに,活性化ニューロン数に高いばらつきがあることに動機づけられ,より効果的な動的k専門家選択ルールを提案する。
最後に、このアプローチをマルチヘッドアテンションプロジェクションに拡張することで、さらに節約することが可能になります。
提案手法であるSparsified Activation Dynamic-k Mixture-of-Experts (SADMoE) は、一般的なNLPおよび視覚タスクにおける既存のアプローチよりも優れており、モデル性能に大きな影響を与えずに最大60%の推論コストを節約できる。
関連論文リスト
- ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity
within Large Language Models [76.81756526165533]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
ほとんどの大きな言語モデル(LLM)は、固有のアクティベーション間隔のないアクティベーション機能を採用している。
本稿では, モデル性能を低下させることなく, LLMを高機能化するために, プロスパース (ProSparse) と呼ばれる効果的なスペーシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [96.30363067135761]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Mimicking Better by Matching the Approximate Action Distribution [48.81067017094468]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Towards Being Parameter-Efficient: A Stratified Sparsely Activated
Transformer with Dynamic Capacity [37.04254056062765]
Stratified Mixture of Experts (SMoE)モデルは、異なるトークンに動的キャパシティを割り当てることができる。
SMoEは、同じまたは少ないパラメータで複数の最先端MoEモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-03T15:18:18Z) - VRA: Variational Rectified Activation for Out-of-distribution Detection [45.804178022641764]
アウト・オブ・ディストリビューション(OOD)検出は、オープンな世界で信頼性の高い機械学習システムを構築する上で重要である。
ReActはモデル過信に対処する典型的な効果的な手法であり、高いアクティベーションを減らし、流通とOODのギャップを増大させる。
本稿では,これらの抑制と増幅操作を一括関数を用いてシミュレートする「変分整定活性化(VRA)'」という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-23T00:45:14Z) - Masked Spiking Transformer [6.862877794199617]
スパイキングニューラルネットワーク(SNN)とトランスフォーマーは、高エネルギー効率と高性能な性質の可能性を秘めている。
本稿では,SNN と Transformer を組み合わせた ANN-to-SNN 変換手法の利点を活用することを提案する。
本研究では、ランダムスパイク・マスキング(RSM)手法を取り入れた新しいマスケプ・スパイク・トランスフォーマー・フレームワークを導入し、余剰スパイクを発生させ、性能を犠牲にすることなくエネルギー消費を低減させる。
論文 参考訳(メタデータ) (2022-10-03T19:56:09Z) - Towards More Effective and Economic Sparsely-Activated Model [31.979312090196423]
同じデバイス上で複数の専門家を活性化する効率的な階層的ルーティング機構を提案する。
我々の手法は、非常に大きなスパースモデルのトレーニングに光を当て、実験により、我々のモデルが大幅な性能向上を達成できることを証明した。
論文 参考訳(メタデータ) (2021-10-14T14:58:53Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。