論文の概要: Exploiting Transformer Activation Sparsity with Dynamic Inference
- arxiv url: http://arxiv.org/abs/2310.04361v1
- Date: Fri, 6 Oct 2023 16:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-09 14:58:32.306053
- Title: Exploiting Transformer Activation Sparsity with Dynamic Inference
- Title(参考訳): 動的推論による変圧器活性化空間の爆発
- Authors: Miko{\l}aj Pi\'orczy\'nski, Filip Szatkowski, Klaudia Ba{\l}azy,
Bartosz W\'ojcik
- Abstract要約: 本稿では,トランスフォーマーモデルの推論コストを大幅に削減する動的スカラートランスフォーマー推論(DSTI)を提案する。
BERTベース分類モデルでは,推定コストを約60%削減する。
- 参考スコア(独自算出の注目度): 1.424005404275135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models, despite their impressive performance, often face
practical limitations due to their high computational requirements. At the same
time, previous studies have revealed significant activation sparsity in these
models, indicating the presence of redundant computations. In this paper, we
propose Dynamic Sparsified Transformer Inference (DSTI), a method that
radically reduces the inference cost of Transformer models by enforcing
activation sparsity and subsequently transforming a dense model into its sparse
Mixture of Experts (MoE) version. We demonstrate that it is possible to train
small gating networks that successfully predict the relative contribution of
each expert during inference. Furthermore, we introduce a mechanism that
dynamically determines the number of executed experts individually for each
token. DSTI can be applied to any Transformer-based architecture and has
negligible impact on the accuracy. For the BERT-base classification model, we
reduce inference cost by almost 60%.
- Abstract(参考訳): トランスフォーマーモデルは、優れた性能にもかかわらず、しばしば高い計算要求のために実用的な制限に直面している。
同時に、以前の研究ではこれらのモデルにおいて大きな活性化間隔が示され、冗長な計算の存在が示されている。
本稿では,動的スパルシファイドトランスフォーマティブ推論(dsti)を提案する。この手法は,アクティベーションスパルシティを強制することによりトランスフォーマの推論コストを劇的に削減し,その後に密集したモデルをsparse mixed of experts (moe) バージョンに変換する。
提案手法では,各専門家の相対的寄与を予測できる小型ゲーティングネットワークの学習が可能であることを実証する。
さらに,トークン毎に個別に実行される専門家の数を動的に決定する機構を導入する。
DSTIはトランスフォーマーベースのアーキテクチャにも適用でき、精度には何の影響も与えない。
BERTベース分類モデルでは,推定コストを約60%削減する。
関連論文リスト
- LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity
within Large Language Models [76.81756526165533]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
ほとんどの大きな言語モデル(LLM)は、固有のアクティベーション間隔のないアクティベーション機能を採用している。
本稿では, モデル性能を低下させることなく, LLMを高機能化するために, プロスパース (ProSparse) と呼ばれる効果的なスペーシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Mimicking Better by Matching the Approximate Action Distribution [48.81067017094468]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Towards Being Parameter-Efficient: A Stratified Sparsely Activated
Transformer with Dynamic Capacity [37.04254056062765]
Stratified Mixture of Experts (SMoE)モデルは、異なるトークンに動的キャパシティを割り当てることができる。
SMoEは、同じまたは少ないパラメータで複数の最先端MoEモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-03T15:18:18Z) - VRA: Variational Rectified Activation for Out-of-distribution Detection [45.804178022641764]
アウト・オブ・ディストリビューション(OOD)検出は、オープンな世界で信頼性の高い機械学習システムを構築する上で重要である。
ReActはモデル過信に対処する典型的な効果的な手法であり、高いアクティベーションを減らし、流通とOODのギャップを増大させる。
本稿では,これらの抑制と増幅操作を一括関数を用いてシミュレートする「変分整定活性化(VRA)'」という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-23T00:45:14Z) - Masked Spiking Transformer [6.862877794199617]
スパイキングニューラルネットワーク(SNN)とトランスフォーマーは、高エネルギー効率と高性能な性質の可能性を秘めている。
本稿では,SNN と Transformer を組み合わせた ANN-to-SNN 変換手法の利点を活用することを提案する。
本研究では、ランダムスパイク・マスキング(RSM)手法を取り入れた新しいマスケプ・スパイク・トランスフォーマー・フレームワークを導入し、余剰スパイクを発生させ、性能を犠牲にすることなくエネルギー消費を低減させる。
論文 参考訳(メタデータ) (2022-10-03T19:56:09Z) - Towards More Effective and Economic Sparsely-Activated Model [31.979312090196423]
同じデバイス上で複数の専門家を活性化する効率的な階層的ルーティング機構を提案する。
我々の手法は、非常に大きなスパースモデルのトレーニングに光を当て、実験により、我々のモデルが大幅な性能向上を達成できることを証明した。
論文 参考訳(メタデータ) (2021-10-14T14:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。