論文の概要: AxFormer: Accuracy-driven Approximation of Transformers for Faster,
Smaller and more Accurate NLP Models
- arxiv url: http://arxiv.org/abs/2010.03688v2
- Date: Fri, 10 Jun 2022 01:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 21:42:32.116409
- Title: AxFormer: Accuracy-driven Approximation of Transformers for Faster,
Smaller and more Accurate NLP Models
- Title(参考訳): AxFormer:高速・小型・高精度NLPモデルのための変圧器の精度駆動近似
- Authors: Amrit Nagarajan, Sanchari Sen, Jacob R. Stevens, Anand Raghunathan
- Abstract要約: AxFormerは、特定の下流タスクのために最適化されたトランスフォーマーモデルを作成するために、精度駆動の近似を適用するフレームワークである。
実験の結果,AxFormerモデルの方が最大4.5%精度が高く,2.5倍高速で3.2倍小型であることがわかった。
- 参考スコア(独自算出の注目度): 4.247712017691596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have greatly advanced the state-of-the-art in Natural Language
Processing (NLP) in recent years, but present very large computation and
storage requirements. We observe that the design process of Transformers
(pre-train a foundation model on a large dataset in a self-supervised manner,
and subsequently fine-tune it for different downstream tasks) leads to
task-specific models that are highly over-parameterized, adversely impacting
both accuracy and inference efficiency. We propose AxFormer, a systematic
framework that applies accuracy-driven approximations to create optimized
transformer models for a given downstream task. AxFormer combines two key
optimizations -- accuracy-driven pruning and selective hard attention.
Accuracy-driven pruning identifies and removes parts of the fine-tuned
transformer that hinder performance on the given downstream task. Sparse
hard-attention optimizes attention blocks in selected layers by eliminating
irrelevant word aggregations, thereby helping the model focus only on the
relevant parts of the input. In effect, AxFormer leads to models that are more
accurate, while also being faster and smaller. Our experiments on GLUE and
SQUAD tasks show that AxFormer models are up to 4.5% more accurate, while also
being up to 2.5X faster and up to 3.2X smaller than conventional fine-tuned
models. In addition, we demonstrate that AxFormer can be combined with previous
efforts such as distillation or quantization to achieve further efficiency
gains.
- Abstract(参考訳): 近年、トランスフォーマーは自然言語処理(NLP)の最先端に大きく進歩してきたが、非常に大きな計算処理とストレージ要件が存在している。
本研究では,トランスフォーマーの設計プロセス(自己教師型の大規模データセット上で基礎モデルを事前訓練し,その後,異なる下流タスクに対して微調整)が,過度にパラメータ化され,精度と推論効率の両方に悪影響を与えることを観察する。
AxFormerは,与えられた下流タスクに対して最適化されたトランスフォーマーモデルを作成するために,精度駆動近似を適用した体系的フレームワークである。
AxFormerは2つの重要な最適化 – 精度駆動型プルーニングと選択的ハードアテンション – を組み合わせる。
精度駆動プルーニングは、与えられた下流タスクのパフォーマンスを妨げる微調整トランスの一部を識別し、除去する。
スパースハードアテンションは、無関係な単語集約を排除し、入力の関連部分のみに焦点を合わせることで、選択したレイヤのアテンションブロックを最適化する。
事実上、axformerはより正確でありながら、より高速で小さくなるモデルにつながります。
GLUEおよびSQUADタスクの実験では、AxFormerモデルの方が最大4.5%精度が高く、2.5倍高速で3.2倍小型であることがわかった。
さらに, axformer と蒸留や量子化などの先行研究を組み合わせることで, さらなる効率向上が達成できることを実証する。
関連論文リスト
- Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Scatterbrain: Unifying Sparse and Low-rank Attention Approximation [25.375024028636663]
そこで我々はScatterbrainを提案する。Scatterbrainは(局所性に敏感なハッシュによる)スパースと(カーネル特徴マップによる)低ランクの注意を正確な近似のために統一する新しい方法である。
Scatterbrain は BigGAN 画像生成と 事前訓練した T2T-ViT のドロップイン置換において, ベースラインの2.1倍の誤差を達成できることを実証的に示す。
Scatterbrain for end-to-end training with up 4 points better perplexity and 5 points better average accuracy than sparse or low-rank efficient transformer on language modeling and long-range-arena task。
論文 参考訳(メタデータ) (2021-10-28T17:52:17Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。