論文の概要: MLP Can Be A Good Transformer Learner
- arxiv url: http://arxiv.org/abs/2404.05657v1
- Date: Mon, 8 Apr 2024 16:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 13:45:54.554259
- Title: MLP Can Be A Good Transformer Learner
- Title(参考訳): MLPは優れたトランスフォーマー学習者になれる
- Authors: Sihao Lin, Pumeng Lyu, Dongrui Liu, Tao Tang, Xiaodan Liang, Andy Song, Xiaojun Chang,
- Abstract要約: 自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 73.01739251050076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention mechanism is the key of the Transformer but often criticized for its computation demands. Previous token pruning works motivate their methods from the view of computation redundancy but still need to load the full network and require same memory costs. This paper introduces a novel strategy that simplifies vision transformers and reduces computational load through the selective removal of non-essential attention layers, guided by entropy considerations. We identify that regarding the attention layer in bottom blocks, their subsequent MLP layers, i.e. two feed-forward layers, can elicit the same entropy quantity. Meanwhile, the accompanied MLPs are under-exploited since they exhibit smaller feature entropy compared to those MLPs in the top blocks. Therefore, we propose to integrate the uninformative attention layers into their subsequent counterparts by degenerating them into identical mapping, yielding only MLP in certain transformer blocks. Experimental results on ImageNet-1k show that the proposed method can remove 40% attention layer of DeiT-B, improving throughput and memory bound without performance compromise. Code is available at https://github.com/sihaoevery/lambda_vit.
- Abstract(参考訳): 自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
以前のトークンプルーニング作業は、計算冗長性の観点からメソッドを動機付けるが、それでも完全なネットワークをロードし、同じメモリコストを必要とする。
本稿では、エントロピーを考慮した非重要注意層を選択的に除去することで、視覚変換器を単純化し、計算負荷を削減する新しい戦略を提案する。
ボトムブロック内のアテンション層について、後続のMLP層、すなわち2つのフィードフォワード層が同じエントロピー量を引き出すことができることを確認した。
一方,MLPは,上位ブロックのMLPに比べて特徴エントロピーが小さいため,露出が低くなる。
そこで本研究では,非形式的注意層を同一の写像に縮退させて,特定の変圧器ブロックにのみMLPを生成することにより,その後の注目層と統合することを提案する。
ImageNet-1kの実験結果から,提案手法はDeiT-Bの40%の注意層を除去し,スループットとメモリバウンドを改善し,性能を損なわないことを示した。
コードはhttps://github.com/sihaoevery/lambda_vit.comから入手できる。
関連論文リスト
- What Matters in Transformers? Not All Attention is Needed [7.857824255138334]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々なタスクで有望なパフォーマンスを示している。
また、冗長なアーキテクチャを導入し、現実世界のデプロイメントに効率上の課題を提起する。
我々は、類似度に基づくメトリクスを用いて、ブロック、アテンション層を含むトランスフォーマー内の異なるモジュール間の冗長性を調べる。
論文 参考訳(メタデータ) (2024-06-22T08:41:48Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - giMLPs: Gate with Inhibition Mechanism in MLPs [13.288519661160898]
抑制付きゲート(giMLP)は、ImageNet分類タスクで同等のパフォーマンスが得られる。
Gate With Inhibitionは、NLUタスクのほとんどの部分において、追加の事前トレーニングなしで魅力的な結果を得ることができる。
ImageNetと12の言語ダウンストリームタスクの実験は、Gate With Inhibitionの有効性を実証している。
論文 参考訳(メタデータ) (2022-08-01T15:23:51Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。