論文の概要: From Attention to Activation: Unravelling the Enigmas of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.17174v1
- Date: Tue, 22 Oct 2024 16:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:25:38.501131
- Title: From Attention to Activation: Unravelling the Enigmas of Large Language Models
- Title(参考訳): 注意から活性化へ:大規模言語モデルの謎を解き明かす
- Authors: Prannay Kaul, Chengcheng Ma, Ismail Elezi, Jiankang Deng,
- Abstract要約: Llamaのような人気のある大規模言語モデルは、注意の98%で最初のトークンに最大で出席している。
我々は、適応的なオプティマイザ、例えばアダムを、大きなオプティマイザアクティベーションの主要因として特定する。
第1トークンの注意率を65%から3.3%、隠蔽状態の活性化カルトシスを1657から3.1、第4ビット量化によるパープレキシティペナルティを3565から0.3に減らした。
- 参考スコア(独自算出の注目度): 29.964961771618103
- License:
- Abstract: We study two strange phenomena in auto-regressive Transformers: (1) the dominance of the first token in attention heads; (2) the occurrence of large outlier activations in the hidden states. We find that popular large language models, such as Llama attend maximally to the first token in 98% of attention heads, a behaviour we attribute to the softmax function. To mitigate this issue, we propose a reformulation of softmax to softmax-1. Furthermore, we identify adaptive optimisers, e.g. Adam, as the primary contributor to the large outlier activations and introduce OrthoAdam, a novel optimiser that utilises orthogonal matrices to transform gradients, to address this issue. Finally, not only do our methods prevent these phenomena from occurring, but additionally, they enable Transformers to sustain their performance when quantised using basic algorithms, something that standard methods are unable to do. In summary, our methods reduce the attention proportion on the first token from 65% to 3.3%, the activation kurtosis in the hidden states from 1657 to 3.1, and perplexity penalty under 4-bit weight quantisation from 3565 to 0.3.
- Abstract(参考訳): 自己回帰変換器における2つの奇妙な現象について検討し,(1)注意頭における第1トークンの優位性,(2)隠蔽状態における大きな外部アクティベーションの発生について検討した。
Llamaのようなポピュラーな大規模言語モデルは、注意ヘッドの98%で最初のトークンに最大化され、それは私たちがソフトマックス関数に帰属する振る舞いである。
この問題を緩和するために,ソフトマックスからソフトマックス1への再構成を提案する。
さらに,適応型オプティマイザ,例えばAdamを,大きなオプティマイザアクティベーションの主要な要因として同定し,直交行列を利用して勾配を変換する新しいオプティマイザであるOrthoAdamを紹介し,この問題に対処する。
最後に,本手法は,これらの現象の発生を防止するだけでなく,基本アルゴリズムを用いて定量化することで,トランスフォーマーが性能を維持することができる。
要約すると,本手法は第1トークンの注意率を65%から3.3%,隠蔽状態の活性化カルトシスを1657から3.1,4ビット量量化によるパープレキシティペナルティを3565から0.3に下げる。
関連論文リスト
- LASER: Attention with Exponential Transformation [20.1832156343096]
注意機構のソフトマックス操作により逆伝播する勾配を解析し、これらの勾配が小さい場合が多いことを観察する。
我々は、より大きな勾配信号を受け入れることを解析的に示すLASERと呼ばれる新しい注意機構を導入する。
既存のアテンション実装に小さな変更を加えることで、LASERアテンションを実装できることを示す。
論文 参考訳(メタデータ) (2024-11-05T20:18:28Z) - Theory, Analysis, and Best Practices for Sigmoid Self-Attention [16.73166377436999]
我々は,シグモイドの注意を再考し,詳細な理論的および経験的分析を行う。
我々は,シグモイドに着目した変換器が普遍関数近似器であることを証明した。
ハードウェア・アウェアのFLASHSIGMOIDを導入し,Sigmoid attentionをメモリ効率で実装する。
論文 参考訳(メタデータ) (2024-09-06T17:53:26Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z) - Quantizable Transformers: Removing Outliers by Helping Attention Heads
Do Nothing [18.673619610942197]
現代のトランスモデルは、アクティベーションにおいて強い外れ値を学ぶ傾向があるため、定量化が難しい。
我々は、強い外れ値が「ノーオップ」または単に残像の部分的な更新を学習しようとする注意ヘッドの非常に具体的な行動と関連していることを示す。
注意機構に対する2つの簡単な(非依存的な)修正(クリップされたソフトマックスとゲートアテンション)を提案する。
論文 参考訳(メタデータ) (2023-06-22T14:39:04Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Reducing Activation Recomputation in Large Transformer Models [17.810669621463962]
本稿では,アクティベーション再計算を減らし,大規模変圧器モデルのトレーニングを大幅に高速化する方法を示す。
シーケンス並列性と選択的アクティベーション再計算の2つの新しい手法を提案する。
本手法は,アクティベーションメモリを5倍に削減し,アクティベーション再計算のオーバーヘッドを90%以上削減する。
論文 参考訳(メタデータ) (2022-05-10T22:40:17Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。