論文の概要: The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers
- arxiv url: http://arxiv.org/abs/2210.06313v2
- Date: Fri, 9 Jun 2023 21:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 02:31:29.439267
- Title: The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers
- Title(参考訳): 遅延ニューロン現象:トランスフォーマーの活性化空間の出現について
- Authors: Zonglin Li, Chong You, Srinadh Bhojanapalli, Daliang Li, Ankit Singh
Rawat, Sashank J. Reddi, Ke Ye, Felix Chern, Felix Yu, Ruiqi Guo, Sanjiv
Kumar
- Abstract要約: 本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
- 参考スコア(独自算出の注目度): 59.87030906486969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the curious phenomenon for machine learning models with
Transformer architectures that their activation maps are sparse. By activation
map we refer to the intermediate output of the multi-layer perceptrons (MLPs)
after a ReLU activation function, and by sparse we mean that on average very
few entries (e.g., 3.0% for T5-Base and 6.3% for ViT-B16) are nonzero for each
input to MLP. Moreover, larger Transformers with more layers and wider MLP
hidden dimensions are sparser as measured by the percentage of nonzero entries.
Through extensive experiments we demonstrate that the emergence of sparsity is
a prevalent phenomenon that occurs for both natural language processing and
vision tasks, on both training and evaluation data, for Transformers of various
configurations, at layers of all depth levels, as well as for other
architectures including MLP-mixers and 2-layer MLPs. We show that sparsity also
emerges using training datasets with random labels, or with random inputs, or
with infinite amount of data, demonstrating that sparsity is not a result of a
specific family of datasets. We discuss how sparsity immediately implies a way
to significantly reduce the FLOP count and improve efficiency for Transformers.
Moreover, we demonstrate perhaps surprisingly that enforcing an even sparser
activation via Top-k thresholding with a small value of k brings a collection
of desired but missing properties for Transformers, namely less sensitivity to
noisy training data, more robustness to input corruptions, and better
calibration for their prediction confidence.
- Abstract(参考訳): 本稿では,そのアクティベーションマップがばらばらであるトランスフォーマーアーキテクチャを用いた機械学習モデルにおける奇妙な現象について検討する。
アクティベーションマップでは、ReLUアクティベーション関数の後に多層パーセプトロン(MLP)の中間出力を参照し、スパースでは、平均的にごく少数のエントリ(T5-Baseは3.0%、ViT-B16は6.3%)がMLPへの入力毎にゼロでないことを意味する。
さらに、より多くの層と広いMLP隠れ次元を持つ大きなトランスフォーマーは、非ゼロエントリの割合によって測定されるスペーサーである。
広範にわたる実験を通して、空間空間の出現は、自然言語処理と視覚タスクの両方、訓練と評価データ、様々な構成のトランスフォーマー、すべての深さレベルの層、およびMLPミキサーや2層MLPといった他のアーキテクチャにおいて起こる現象であることを示した。
また,ランダムラベルやランダム入力,無限量のデータを用いたデータセットのトレーニングによって,スパーシティが出現することを示し,スパーシティがデータセットの特定のファミリーの結果ではないことを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する方法について論じる。
さらに,k値の少ないトップkしきい値でさらにスパルサーのアクティベーションを強制することで,ノイズの少ないトレーニングデータに対する感度の低下,入力汚損に対する堅牢性の向上,予測信頼度に対するキャリブレーション向上といったトランスフォーマーの望ましいが欠落した特性のコレクションが実現できることは,おそらく驚くべきことである。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - Sparse Binary Transformers for Multivariate Time Series Modeling [1.3965477771846404]
軽量圧縮ニューラルネットワークは,高密度浮動小数点変換器に匹敵する精度が得られることを示す。
本モデルは,3つの時系列学習課題 – 分類,異常検出,単段階予測 – で良好な結果が得られる。
本稿では,パラメータ数,ビットサイズ,浮動小数点演算(FLOP)数など,さまざまな指標に対するアプローチの計算的節約度を測定した。
論文 参考訳(メタデータ) (2023-08-09T00:23:04Z) - U-shaped Transformer: Retain High Frequency Context in Time Series
Analysis [0.5710971447109949]
本稿では,変圧器の低域特性を考察し,その利点を取り入れようと試みる。
パッチマージと分割操作を導入し、異なるスケールの機能を抽出し、より大きなデータセットを使用してトランスフォーマーバックボーンを完全に活用する。
実験により、比較的低コストで複数のデータセットをまたいだ高度なレベルでモデルが動作できることが実証された。
論文 参考訳(メタデータ) (2023-07-18T07:15:26Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。