論文の概要: What Matters in Transformers? Not All Attention is Needed
- arxiv url: http://arxiv.org/abs/2406.15786v2
- Date: Mon, 8 Jul 2024 00:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 01:00:13.591060
- Title: What Matters in Transformers? Not All Attention is Needed
- Title(参考訳): トランスフォーマーには何があるのか? すべての注意が必要なわけではない
- Authors: Shwai He, Guoheng Sun, Zheyu Shen, Ang Li,
- Abstract要約: Transformerベースの大規模言語モデル(LLM)のスケーリングは、様々なタスクで有望なパフォーマンスを示している。
このスケーリングには冗長な構造も導入され、現実のデプロイメントには課題がある。
我々は、類似度に基づく計量を用いて、ブロック、メートル法構造、アテンション層を含むトランスフォーマー内の異なるモジュール間の異なる冗長性について検討する。
- 参考スコア(独自算出の注目度): 7.857824255138334
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scaling Transformer-based large language models (LLMs) has demonstrated promising performance across various tasks. However, this scaling also introduces redundant structures, posing challenges for real-world deployment. Despite some recognition of redundancy in LLMs, the variability of redundancy across different structures, such as MLP and Attention layers, is under-explored. In this work, we investigate the varying redundancy across different modules within Transformers, including Blocks, MLP, and Attention layers, using a similarity-based metric. This metric operates on the premise that redundant structures produce outputs highly similar to their inputs. Surprisingly, while attention layers are essential for transformers and distinguish them from other mainstream architectures, we found that a large proportion of attention layers exhibit excessively high similarity and can be safely pruned without degrading performance, leading to reduced memory and computation costs. Additionally, we further propose a method that jointly drops Attention and MLP layers, achieving improved performance and dropping ratios. Extensive experiments demonstrate the effectiveness of our methods, e.g., Llama-3-70B maintains comparable performance even after pruning half of the attention layers. Our findings provide valuable insights for future network architecture design. The code will be released at: \url{https://github.com/Shwai-He/LLM-Drop}.
- Abstract(参考訳): Transformerベースの大規模言語モデル(LLM)のスケーリングは、様々なタスクで有望なパフォーマンスを示している。
しかし、このスケーリングには冗長な構造も導入されており、現実のデプロイメントには課題がある。
LLMの冗長性はある程度認識されているが、MLPやアテンション層といった異なる構造における冗長性の多様性は未解明である。
本研究では、類似度に基づくメトリクスを用いて、ブロック、MLP、アテンション層を含むトランスフォーマー内の異なるモジュール間の異なる冗長性について検討する。
この計量は、冗長構造が入力と非常によく似た出力を生成するという前提で機能する。
驚いたことに、アテンション層は他の主流アーキテクチャと区別するためにはアテンション層が不可欠であるが、多くのアテンション層が過剰に高い類似性を示し、性能を劣化させることなく安全に切断できることが判明し、メモリと計算コストの削減につながった。
さらに,アテンション層とMLP層を共同でドロップする手法を提案し,性能向上と低下率の向上を実現した。
Llama-3-70Bは注目層の半分を刈っても同等の性能を維持している。
我々の発見は将来のネットワークアーキテクチャ設計に貴重な洞察を与えてくれる。
コードは: \url{https://github.com/Shwai-He/LLM-Drop} でリリースされる。
関連論文リスト
- Value Residual Learning For Alleviating Attention Concentration In Transformers [14.898656879574622]
複数の注意層を積み重ねると 注意集中につながる
この問題に対処する自然な方法の1つは、レイヤ横断の注意を使うことで、以前のレイヤからの情報を後続のレイヤに直接アクセス可能にすることである。
本稿では,第1層の値から第1層の値への残差接続を付加することにより,層間注意を近似する残差値(ResFormer)の変換器を提案する。
論文 参考訳(メタデータ) (2024-10-23T14:15:07Z) - How Lightweight Can A Vision Transformer Be [0.0]
我々は、Mixture-of-Experts (MoE) を用いて、拡張された視覚変換器ではなく、合理化を行う戦略を探求する。
MoE層の各専門家はSwiGLUフィードフォワードネットワークであり、VとW2は層間で共有される。
アーキテクチャは0.67Mのパラメータでも競合することがわかった。
論文 参考訳(メタデータ) (2024-07-25T05:23:20Z) - Attention Is All You Need But You Don't Need All Of It For Inference of Large Language Models [14.957045047543405]
ドライパー注意層を落とせば、性能はわずかに低下するが、最高のスピードアップにつながる。
また、後者の層以外の層をスキップすることは、注意層をスキップする以外は、より多くの層をスキップする性能を低下させる。
論文 参考訳(メタデータ) (2024-07-22T10:09:05Z) - Transformer Layers as Painters [16.43731831488477]
事前学習したトランスの下位層と最終層は中間層と異なるが,中間層は驚くほど均一であることを示す。
また、いくつかの問題のクラスは、レイヤのスキップ、レイヤのトレーニング方法と異なる順序での実行、レイヤの並列実行に対して堅牢性が必要であることも示しています。
我々の観察では、凍結した事前学習モデルでさえ、レイヤをスキップしたり、並列にレイヤを走らせることで、遅延の正確さを優雅に交換できる可能性が示唆されている。
論文 参考訳(メタデータ) (2024-07-12T14:31:05Z) - FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models [54.787308652357794]
FinerCutは変圧器ネットワークのための微細な層プルーニングの新たな形式である。
Llama3-8Bは25%の層を除去し,Llama3-70Bは95%の層を除去した。
論文 参考訳(メタデータ) (2024-05-28T14:21:15Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。