論文の概要: Transformer tricks: Removing weights for skipless transformers
- arxiv url: http://arxiv.org/abs/2404.12362v1
- Date: Thu, 18 Apr 2024 17:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 18:42:29.781966
- Title: Transformer tricks: Removing weights for skipless transformers
- Title(参考訳): 変圧器のトリック:スキップレス変圧器の重量除去
- Authors: Nils Graef,
- Abstract要約: このマイクロペーパーは、MQAとGQAに適した数学的に等価なバージョンを提案する。
例えば、ミストラル7BのスキップレスバージョンからQとPを取り除くと、重量の15%が取り除かれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: He and Hofmann (arXiv:2311.01906) detailed a skipless transformer without the V and P (post-attention projection) linear layers, which reduces the total number of weights. However, this scheme is only applicable to MHA (multi-head attention), but not for MQA (multi-query attention) and GQA (grouped-query attention). The latter schemes are used by many popular LLMs such as Llama 2, Mistral, Mixtral, PaLM, and Gemma. Therefore, this micro-paper proposes mathematically equivalent versions that are suitable for MQA and GQA. For example, removing Q and P from a skipless version of Mistral-7B would remove 15% of its weights (and thus reduce its compute and memory complexity). See arXiv:2402.13388 and https://github.com/OpenMachine-ai/transformer-tricks for code and more transformer tricks.
- Abstract(参考訳): He と Hofmann (arXiv:2311.01906) は、V と P の線形層を持たないスキップレス変換器を詳述した。
しかし、このスキームはMHA(multi-head attention)にのみ適用されるが、MQA(multi-query attention)とGQA(grouped-query attention)には適用されない。
後者のスキームは、Llama 2、Mistral、Mixtral、PaLM、Gemmaなど、多くの人気のあるLLMで使用されている。
したがって、このマイクロペーパーはMQAとGQAに適した数学的に等価なバージョンを提案する。
例えば、Mistral-7BのスキップレスバージョンからQとPを取り除くと、その重みの15%が取り除かれる(計算とメモリの複雑さが軽減される)。
コードにはarXiv:2402.13388とhttps://github.com/OpenMachine-ai/transformer-tricksを参照。
関連論文リスト
- Data-independent Module-aware Pruning for Hierarchical Vision Transformers [41.92794134275854]
階層型視覚変換器(ViT)は従来のViTよりも2つの利点がある。
まず、階層型ViTは局所的な自己注意による画像サイズに関する線形計算複雑性を実現する。
第二に、階層的なViTは階層的な特徴マップを作成し、画像パッチをより深い層にマージして、密度の高い予測を行う。
論文 参考訳(メタデータ) (2024-04-21T12:50:38Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - Transformer tricks: Precomputing the first layer [0.0]
このマイクロペーパーは、RoPEでトランスフォーマーの推論を高速化するトリックを記述している。
第1変圧器層の大部分をプリ計算できるため、レイテンシがわずかに小さく、コスト対トーケンが低くなる。
論文 参考訳(メタデータ) (2024-02-20T21:34:56Z) - AFPQ: Asymmetric Floating Point Quantization for LLMs [6.176074875528637]
正値と負値の別スケールを設定する非対称FP量子化(AFPQ)を提案する。
提案手法は精度が向上し, GPTQ や AWQ など他の量子化手法に簡単に接続できる。
非対称整数(INT)量子化と比較して余分なストレージは不要である。
論文 参考訳(メタデータ) (2023-11-03T09:07:09Z) - Approximating Two-Layer Feedforward Networks for Efficient Transformers [15.793406740545024]
製品キーメモリ(PKM)を含む2層NNを近似する様々な手法を統合する汎用フレームワークを提案する。
WikiText-103とenwiki8の両方のデータセットで2つの異なるスケールで、当社のMoEがTransformer-XLと競合していることが示されています。
このことは、MoE が極めて大きな LM だけでなく、資源効率の高い LM にも関係していることを示している。
論文 参考訳(メタデータ) (2023-10-16T21:23:16Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Patches Are All You Need? [96.88889685873106]
ビジョントランスフォーマー(ViT)モデルは、いくつかの設定でパフォーマンスを上回る可能性がある。
ViTは、イメージの小さな領域を単一の入力機能にまとめるパッチ埋め込みを使用する必要がある。
本質的によりパワフルなTransformerアーキテクチャによるViTのパフォーマンスは、少なくとも部分的には、入力表現としてパッチを使用することによるものなのでしょうか?
論文 参考訳(メタデータ) (2022-01-24T16:42:56Z) - MetaFormer is Actually What You Need for Vision [175.86264904607785]
変換器のアテンションモジュールを、恥ずかしいほど単純な空間プーリング演算子に置き換える。
意外なことに、複数のコンピュータビジョンタスクにおいて、導出モデルが競合性能を達成することを観察する。
論文 参考訳(メタデータ) (2021-11-22T18:52:03Z) - What's Hidden in a One-layer Randomly Weighted Transformer? [100.98342094831334]
1層にランダムに重み付けされたニューラルネットワークの中に埋もれており、素晴らしいパフォーマンスを達成することができる。
IWSLT14/WMT14でトレーニングされたTransformerの小型/ベースの性能は98%/92% (34.14/25.24 BLEU) に匹敵する。
論文 参考訳(メタデータ) (2021-09-08T21:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。