論文の概要: Quantizable Transformers: Removing Outliers by Helping Attention Heads
Do Nothing
- arxiv url: http://arxiv.org/abs/2306.12929v2
- Date: Thu, 9 Nov 2023 14:05:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 18:13:38.961060
- Title: Quantizable Transformers: Removing Outliers by Helping Attention Heads
Do Nothing
- Title(参考訳): 変圧器の量子化:アテンションヘッドが何もしないようにする
- Authors: Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort
- Abstract要約: 現代のトランスモデルは、アクティベーションにおいて強い外れ値を学ぶ傾向があるため、定量化が難しい。
我々は、強い外れ値が「ノーオップ」または単に残像の部分的な更新を学習しようとする注意ヘッドの非常に具体的な行動と関連していることを示す。
注意機構に対する2つの簡単な(非依存的な)修正(クリップされたソフトマックスとゲートアテンション)を提案する。
- 参考スコア(独自算出の注目度): 18.673619610942197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models have been widely adopted in various domains over the last
years, and especially large language models have advanced the field of AI
significantly. Due to their size, the capability of these networks has
increased tremendously, but this has come at the cost of a significant increase
in necessary compute. Quantization is one of the most effective ways to reduce
the computational time and memory consumption of neural networks. Many studies
have shown, however, that modern transformer models tend to learn strong
outliers in their activations, making them difficult to quantize. To retain
acceptable performance, the existence of these outliers requires activations to
be in higher bitwidth or the use of different numeric formats, extra
fine-tuning, or other workarounds. We show that strong outliers are related to
very specific behavior of attention heads that try to learn a "no-op" or just a
partial update of the residual. To achieve the exact zeros needed in the
attention matrix for a no-update, the input to the softmax is pushed to be
larger and larger during training, causing outliers in other parts of the
network. Based on these observations, we propose two simple (independent)
modifications to the attention mechanism - clipped softmax and gated attention.
We empirically show that models pre-trained using our methods learn
significantly smaller outliers while maintaining and sometimes even improving
the floating-point task performance. This enables us to quantize transformers
to full INT8 quantization of the activations without any additional effort. We
demonstrate the effectiveness of our methods on both language models (BERT,
OPT) and vision transformers.
- Abstract(参考訳): トランスフォーマーモデルはここ数年、様々な領域で広く採用され、特に大きな言語モデルはAIの分野を著しく進歩させてきた。
その規模のため、これらのネットワークの能力は大幅に増加したが、必要な計算量を大幅に増加させるコストがかかっている。
量子化は、ニューラルネットワークの計算時間とメモリ消費を減らす最も効果的な方法の1つである。
しかし、多くの研究により、現代のトランスフォーマーモデルはアクティベーションにおいて強い外れ値を学ぶ傾向にあり、定量化が難しいことが示されている。
許容される性能を維持するために、これらの異常値の存在は、ビット幅の高いアクティベーションや、異なる数値フォーマット、追加の微調整、その他の回避策を必要とする。
我々は、強い外れ値が「ノーオップ」または単に残像の部分的な更新を学習しようとする注意頭の動きに非常に関係していることを示す。
ノーアップデートのためのアテンションマトリックスで必要とされる正確なゼロを達成するために、トレーニング中にソフトマックスへの入力がより大きくなり、ネットワークの他の部分で異常が発生する。
これらの観察に基づいて,注意機構の単純(独立)な2つの修正(クリップングソフトマックスとゲート付き注意)を提案する。
我々は,本手法を用いて事前学習したモデルにおいて,浮動小数点タスク性能を維持・改善しながら,はるかに小さなアウトレーラを学習できることを実証的に示す。
これにより、追加の労力なしで、トランスフォーマーをint8量子化に量子化できます。
提案手法の有効性を言語モデル(BERT, OPT)と視覚変換器の両方で示す。
関連論文リスト
- RecurFormer: Not All Transformer Heads Need Self-Attention [14.331807060659902]
変換器をベースとした大規模言語モデル(LLM)は複雑な言語パターンをモデル化する上で優れているが、推論時にかなりの計算コストに直面している。
本稿では,リニアリカレントニューラルネットワークに注意を向ける新しいアーキテクチャであるRecurFormerを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:24:12Z) - QuantAttack: Exploiting Dynamic Quantization to Attack Vision
Transformers [29.957089564635083]
我々は、量子化されたモデルの可用性を目標とする、新しい攻撃であるQuantAttackを紹介する。
オペレーティングシステムのリソースを無駄にするために設計された、慎重に構築された敵の例は、最悪のパフォーマンスを引き起こす可能性があることを示す。
論文 参考訳(メタデータ) (2023-12-03T18:31:19Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Continual Learning with Transformers for Image Classification [12.028617058465333]
コンピュータビジョンでは、ニューラルネットワークモデルは、過去に何を学んだかを忘れずに、新しい概念を継続的に学習する。
本研究では,適応型適応器の蒸留法 (ADA) を開発した。
本手法は,モデルを再学習することなく,優れた予測性能を維持することを実証的に示す。
論文 参考訳(メタデータ) (2022-06-28T15:30:10Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。