論文の概要: Weighted Grouped Query Attention in Transformers
- arxiv url: http://arxiv.org/abs/2407.10855v1
- Date: Mon, 15 Jul 2024 16:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:20:24.750864
- Title: Weighted Grouped Query Attention in Transformers
- Title(参考訳): 変圧器における重み付きグループクエリアテンション
- Authors: Sai Sena Chinnakonduru, Astarag Mohapatra,
- Abstract要約: Weighted Grouped-Query Attention (WGQA) と呼ばれるグループクエリ注意のバリエーションを提案する。
我々は,T5デコーダのアテンションブロックにおいて,各キーと値のヘッダに対して新たな学習可能なパラメータを導入し,微調整中に重み付き平均値を取ることを可能にする。
本モデルでは,GQAよりも平均0.53%改善し,推定時のオーバーヘッドを伴わず,従来のマルチヘッドアテンション(MHA)に収束する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention mechanism forms the foundational blocks for transformer language models. Recent approaches show that scaling the model achieves human-level performance. However, with increasing demands for scaling and constraints on hardware memory, the inference costs of these models remain high. To reduce the inference time, Multi-Query Attention (MQA) and Grouped-Query Attention (GQA) were proposed in (Shazeer, 2019) and (Ainslieet al., 2023) respectively. In this paper, we propose a variation of Grouped-Query Attention, termed Weighted Grouped-Query Attention (WGQA). We introduced new learnable parameters for each key and value head in the T5 decoder attention blocks, enabling the model to take a weighted average during finetuning. Our model achieves an average of 0.53% improvement over GQA, and the performance converges to traditional Multi-head attention (MHA) with no additional overhead during inference. We evaluated the introduction of these parameters and subsequent finetuning informs the model about the grouping mechanism during training, thereby enhancing performance. Additionally, we demonstrate the scaling laws in our analysis by comparing the results between T5-small and T5-base architecture.
- Abstract(参考訳): 注意機構はトランスフォーマー言語モデルの基礎ブロックを形成する。
近年のアプローチでは、モデルをスケールすることで人間レベルのパフォーマンスが達成されている。
しかし、ハードウェアメモリのスケーリングや制約の増大に伴い、これらのモデルの推論コストは高いままである。
推測時間を短縮するために、(Shazeer, 2019) と (Ainslieet al , 2023) で、Multi-Query Attention (MQA) とGrouped-Query Attention (GQA) がそれぞれ提案された。
本稿では,Weighted Grouped-Query Attention (WGQA) と呼ばれるグループクエリ注意のバリエーションを提案する。
我々は、T5デコーダのアテンションブロックにおいて、各キーと値のヘッドに対して新しい学習可能なパラメータを導入し、微調整中に重み付き平均値を取ることができるようにした。
提案モデルでは,GQAよりも0.53%向上し,従来のマルチヘッドアテンション(MHA)に収束する。
これらのパラメータの導入を評価し、その後の微調整により、トレーニング中のグルーピング機構についてモデルに通知し、性能を向上する。
さらに,T5-smallアーキテクチャとT5-baseアーキテクチャのスケーリング法則を比較した。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Boosting X-formers with Structured Matrix for Long Sequence Time Series Forecasting [7.3758245014991255]
長周期時系列予測(LSTF)問題におけるトランスフォーマーモデルのための新しいアーキテクチャ設計を提案する。
このフレームワークは、その正確性を犠牲にすることなく、よく設計されたモデルの効率を高めることを目的としている。
平均性能は9.45%向上し, モデルサイズを46%削減した。
論文 参考訳(メタデータ) (2024-05-21T02:37:47Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Advancing Vision Transformers with Group-Mix Attention [59.585623293856735]
グループミクス・アテンション(GMA)は、従来の自己アテンションの先進的な代替品である。
GMAは、さまざまなグループサイズとトークン・ツー・トークン・ツー・グループ、グループ・ツー・グループ相関を同時に取得する。
GroupMixFormerは、画像分類、オブジェクト検出、セマンティックセグメンテーションにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-26T01:25:03Z) - Systematic Architectural Design of Scale Transformed Attention Condenser
DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。
ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。
ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-16T18:29:26Z) - 4D ASR: Joint modeling of CTC, Attention, Transducer, and Mask-Predict
decoders [29.799797974513552]
本稿では,CTC,アテンション,RNN-T,マスク予測の4デコーダ共同モデリング(4D)を提案する。
4つのデコーダは、アプリケーションシナリオに応じて簡単に切り替えられるように、共同でトレーニングされている。
実験の結果,提案したモデルが一貫してWERを減少させることがわかった。
論文 参考訳(メタデータ) (2022-12-21T07:15:59Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - LongT5: Efficient Text-To-Text Transformer for Long Sequences [8.743996838160825]
我々はLongT5と呼ばれる新しいモデルを提案し、入力長とモデルサイズの両方を同時にスケーリングする効果について検討する。
いくつかの要約タスクでは最先端の結果が得られ、質問応答タスクでは元のT5モデルよりも優れています。
論文 参考訳(メタデータ) (2021-12-15T06:35:29Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z) - Fast Transformers with Clustered Attention [14.448898156256478]
本稿では,クエリ毎の注目度を計算する代わりに,クエリをクラスタにグループ化し,セントロイドのみの注意度を算出するクラスタ型注意度を提案する。
これにより、固定数のクラスタのシーケンス長に対する線形複雑性を持つモデルが得られる。
我々は,2つの自動音声認識データセットに対するアプローチを評価し,そのモデルが与えられた計算予算に対して常にバニラ変換器より優れていることを示す。
論文 参考訳(メタデータ) (2020-07-09T14:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。