論文の概要: Optimised Grouped-Query Attention Mechanism for Transformers
- arxiv url: http://arxiv.org/abs/2406.14963v1
- Date: Fri, 21 Jun 2024 08:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 14:13:25.540646
- Title: Optimised Grouped-Query Attention Mechanism for Transformers
- Title(参考訳): 変圧器におけるグループクエリアテンションの最適化
- Authors: Yuang Chen, Cheng Zhang, Xitong Gao, Robert D. Mullins, George A. Constantinides, Yiren Zhao,
- Abstract要約: モデル性能を向上させるために,MHAをGQAに非対称にグループ化するアクティベーションインフォームドアプローチであるAsymGQAを提案する。
本手法は,GQAのモデル性能とハードウェア効率のトレードオフ問題に対処する。
- 参考スコア(独自算出の注目度): 22.308962194411375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grouped-query attention (GQA) has been widely adopted in LLMs to mitigate the complexity of multi-head attention (MHA). To transform an MHA to a GQA, neighbour queries in MHA are evenly split into groups where each group shares the value and key layers. In this work, we propose AsymGQA, an activation-informed approach to asymmetrically grouping an MHA to a GQA for better model performance. Our AsymGQA outperforms the GQA within the same model size budget. For example, AsymGQA LLaMA-2-7B has an accuracy increase of 7.5% on MMLU compared to neighbour grouping. Our approach addresses the GQA's trade-off problem between model performance and hardware efficiency.
- Abstract(参考訳): グループクエリアテンション(GQA)はマルチヘッドアテンション(MHA)の複雑さを軽減するためにLLMで広く採用されている。
MHAをGQAに変換するために、MHA内の隣接クエリは、各グループが値とキー層を共有するグループに均等に分割される。
本研究では,モデル性能を向上させるために,MHAをGQAに非対称にグループ化するアクティベーションインフォームドアプローチであるAsymGQAを提案する。
私たちのAsymGQAは、同じモデルサイズの予算内でGQAより優れています。
例えば、AsymGQA LLaMA-2-7Bは、隣接するグループに比べてMMLUの精度が7.5%向上している。
本手法は,GQAのモデル性能とハードウェア効率のトレードオフ問題に対処する。
関連論文リスト
- Accurate and Efficient Fine-Tuning of Quantized Large Language Models Through Optimal Balance [20.659750151408186]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示している。
パラメータ量子化とローランド適応(LoRA)を組み合わせた既存ソリューション
平衡ランク適応(Q-BaRA)と高ランク適応(QA-HiRA)を考慮した量子化微調整(QA-HiRA)を提案する。
論文 参考訳(メタデータ) (2024-07-24T06:16:37Z) - Weighted Grouped Query Attention in Transformers [0.0]
Weighted Grouped-Query Attention (WGQA) と呼ばれるグループクエリ注意のバリエーションを提案する。
我々は,T5デコーダのアテンションブロックにおいて,各キーと値のヘッダに対して新たな学習可能なパラメータを導入し,微調整中に重み付き平均値を取ることを可能にする。
本モデルでは,GQAよりも平均0.53%改善し,推定時のオーバーヘッドを伴わず,従来のマルチヘッドアテンション(MHA)に収束する。
論文 参考訳(メタデータ) (2024-07-15T16:07:13Z) - HAMMR: HierArchical MultiModal React agents for generic VQA [27.78721140495953]
計数,空間的推論,OCRに基づく推論,視覚的ポインティング,外部知識など,様々なVQAタスクスイート上でシステムを評価する。
マルチモーダルなReActベースのシステムから始まり、HAMMRエージェントが他の特殊なエージェントを呼び出せるようにすることで、階層的にします。
具体的には、我々の一般的なVQAスイートでは、HAMMRは単純LLM+ツールのアプローチを19.5%上回っている。
論文 参考訳(メタデータ) (2024-04-08T12:43:32Z) - Advancing Vision Transformers with Group-Mix Attention [59.585623293856735]
グループミクス・アテンション(GMA)は、従来の自己アテンションの先進的な代替品である。
GMAは、さまざまなグループサイズとトークン・ツー・トークン・ツー・グループ、グループ・ツー・グループ相関を同時に取得する。
GroupMixFormerは、画像分類、オブジェクト検出、セマンティックセグメンテーションにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-26T01:25:03Z) - Mitigating the Alignment Tax of RLHF [77.7879015461373]
人間フィードバックによる強化学習(Reinforcement Learning with Human Feedback, RLHF)は、アライメント税(アライメント税)としても知られる。
本稿では,RLHFモデル重みを補間するモデル平均化を提案し,より効率的な報酬税前処理を実現する。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - GrapeQA: GRaph Augmentation and Pruning to Enhance Question-Answering [19.491275771319074]
Commonsense Question-Awering (QA)メソッドは、事前学習された言語モデル(LM)のパワーと知識グラフ(KG)が提供する推論を組み合わせる。
典型的なアプローチでは、QAペアに関連するノードをKGから収集してワーキンググラフを作り、続いてグラフニューラルネットワーク(GNN)を用いて推論する。
We propose GrapeQA with two simple improvements on the WG: (i) Prominent Entities for Graph Augmentation identifieds relevant text chunks from the QA pair and augments the WG with corresponding latent representations from the LM, and (ii) Context-Aware Node Prunings the QA less relevant to the QA。
論文 参考訳(メタデータ) (2023-03-22T05:35:29Z) - AGRO: Adversarial Discovery of Error-prone groups for Robust
Optimization [109.91265884632239]
群分散ロバスト最適化(G-DRO)は、トレーニングデータに対する事前定義されたグループのセットに対する最悪の損失を最小限にすることができる。
本稿では、分散ロバスト最適化のためのAGRO -- Adversarial Group Discoveryを提案する。
AGROは、既知の最悪のグループの平均モデルパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2022-12-02T00:57:03Z) - GCoNet+: A Stronger Group Collaborative Co-Salient Object Detector [156.43671738038657]
本稿では,GCoNet+と呼ばれる新しいグループ協調学習ネットワークを提案する。
GCoNet+は自然界における共存対象を効果的かつ効率的に識別することができる。
論文 参考訳(メタデータ) (2022-05-30T23:49:19Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Communication Efficient Distributed Learning with Censored, Quantized,
and Generalized Group ADMM [52.12831959365598]
本稿では,相互接続作業者のネットワーク上で定義されたコンセンサス最適化問題を解決するための,コミュニケーション効率のよい分散機械学習フレームワークを提案する。
提案アルゴリズムであるCensored and Quantized Generalized GADMMは、GADMM(Group Alternating Direction Method of Multipliers)の労働者グループ化と分散学習のアイデアを活用する。
CQ-GGADMMは通信ラウンド数で高い通信効率を示し、精度と収束速度を損なうことなくエネルギー消費を伝達する。
論文 参考訳(メタデータ) (2020-09-14T14:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。