論文の概要: Optimised Grouped-Query Attention Mechanism for Transformers
- arxiv url: http://arxiv.org/abs/2406.14963v1
- Date: Fri, 21 Jun 2024 08:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 14:13:25.540646
- Title: Optimised Grouped-Query Attention Mechanism for Transformers
- Title(参考訳): 変圧器におけるグループクエリアテンションの最適化
- Authors: Yuang Chen, Cheng Zhang, Xitong Gao, Robert D. Mullins, George A. Constantinides, Yiren Zhao,
- Abstract要約: モデル性能を向上させるために,MHAをGQAに非対称にグループ化するアクティベーションインフォームドアプローチであるAsymGQAを提案する。
本手法は,GQAのモデル性能とハードウェア効率のトレードオフ問題に対処する。
- 参考スコア(独自算出の注目度): 22.308962194411375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grouped-query attention (GQA) has been widely adopted in LLMs to mitigate the complexity of multi-head attention (MHA). To transform an MHA to a GQA, neighbour queries in MHA are evenly split into groups where each group shares the value and key layers. In this work, we propose AsymGQA, an activation-informed approach to asymmetrically grouping an MHA to a GQA for better model performance. Our AsymGQA outperforms the GQA within the same model size budget. For example, AsymGQA LLaMA-2-7B has an accuracy increase of 7.5% on MMLU compared to neighbour grouping. Our approach addresses the GQA's trade-off problem between model performance and hardware efficiency.
- Abstract(参考訳): グループクエリアテンション(GQA)はマルチヘッドアテンション(MHA)の複雑さを軽減するためにLLMで広く採用されている。
MHAをGQAに変換するために、MHA内の隣接クエリは、各グループが値とキー層を共有するグループに均等に分割される。
本研究では,モデル性能を向上させるために,MHAをGQAに非対称にグループ化するアクティベーションインフォームドアプローチであるAsymGQAを提案する。
私たちのAsymGQAは、同じモデルサイズの予算内でGQAより優れています。
例えば、AsymGQA LLaMA-2-7Bは、隣接するグループに比べてMMLUの精度が7.5%向上している。
本手法は,GQAのモデル性能とハードウェア効率のトレードオフ問題に対処する。
関連論文リスト
- Heterogeneous Swarms: Jointly Optimizing Model Roles and Weights for Multi-LLM Systems [102.36545569092777]
モデルの役割と重みを協調的に最適化し,マルチLLMシステムを設計するアルゴリズムであるヘテロジニアス・スウォームを提案する。
実験により、異種群は12タスクの平均18.5%で15のロールベースおよび/またはウェイトベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-06T21:27:11Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - Align Attention Heads Before Merging Them: An Effective Way for Converting MHA to GQA [8.305827430948654]
キー-値ヘッドの圧縮比が全くないGQAモデルにMHAモデルをプルーニングするための低コストな手法を提案する。
我々の戦略は、LLaMA2-7Bモデルのキー値ヘッドの87.5%を、過剰な性能劣化を伴わずに圧縮することができる。
論文 参考訳(メタデータ) (2024-12-30T03:05:45Z) - Beyond Uniform Query Distribution: Key-Driven Grouped Query Attention [3.3457276841127315]
トランスフォーマーアーキテクチャは、自己認識機構を通じてディープラーニングに革命をもたらした。
Grouped Query Attention (GQA)は、クエリをグループ化し、対応するキー値ヘッドを平均プールすることでこの問題に対処する。
グループ化の静的な性質から逸脱する2つの新しいアプローチに焦点を当てたGQAの拡張を導入する。
論文 参考訳(メタデータ) (2024-08-15T23:34:04Z) - Weighted Grouped Query Attention in Transformers [0.0]
Weighted Grouped-Query Attention (WGQA) と呼ばれるグループクエリ注意のバリエーションを提案する。
我々は,T5デコーダのアテンションブロックにおいて,各キーと値のヘッダに対して新たな学習可能なパラメータを導入し,微調整中に重み付き平均値を取ることを可能にする。
本モデルでは,GQAよりも平均0.53%改善し,推定時のオーバーヘッドを伴わず,従来のマルチヘッドアテンション(MHA)に収束する。
論文 参考訳(メタデータ) (2024-07-15T16:07:13Z) - HAMMR: HierArchical MultiModal React agents for generic VQA [27.78721140495953]
計数,空間的推論,OCRに基づく推論,視覚的ポインティング,外部知識など,様々なVQAタスクスイート上でシステムを評価する。
マルチモーダルなReActベースのシステムから始まり、HAMMRエージェントが他の特殊なエージェントを呼び出せるようにすることで、階層的にします。
具体的には、我々の一般的なVQAスイートでは、HAMMRは単純LLM+ツールのアプローチを19.5%上回っている。
論文 参考訳(メタデータ) (2024-04-08T12:43:32Z) - Advancing Vision Transformers with Group-Mix Attention [59.585623293856735]
グループミクス・アテンション(GMA)は、従来の自己アテンションの先進的な代替品である。
GMAは、さまざまなグループサイズとトークン・ツー・トークン・ツー・グループ、グループ・ツー・グループ相関を同時に取得する。
GroupMixFormerは、画像分類、オブジェクト検出、セマンティックセグメンテーションにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-26T01:25:03Z) - AGRO: Adversarial Discovery of Error-prone groups for Robust
Optimization [109.91265884632239]
群分散ロバスト最適化(G-DRO)は、トレーニングデータに対する事前定義されたグループのセットに対する最悪の損失を最小限にすることができる。
本稿では、分散ロバスト最適化のためのAGRO -- Adversarial Group Discoveryを提案する。
AGROは、既知の最悪のグループの平均モデルパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2022-12-02T00:57:03Z) - Communication Efficient Distributed Learning with Censored, Quantized,
and Generalized Group ADMM [52.12831959365598]
本稿では,相互接続作業者のネットワーク上で定義されたコンセンサス最適化問題を解決するための,コミュニケーション効率のよい分散機械学習フレームワークを提案する。
提案アルゴリズムであるCensored and Quantized Generalized GADMMは、GADMM(Group Alternating Direction Method of Multipliers)の労働者グループ化と分散学習のアイデアを活用する。
CQ-GGADMMは通信ラウンド数で高い通信効率を示し、精度と収束速度を損なうことなくエネルギー消費を伝達する。
論文 参考訳(メタデータ) (2020-09-14T14:18:19Z) - Q-GADMM: Quantized Group ADMM for Communication Efficient Decentralized Machine Learning [66.18202188565922]
我々はQGADMM(QGADMM)という通信効率の高い分散機械学習(ML)アルゴリズムを提案する。
我々は,凸関数に対するQGADMMの収束性を証明しつつ,モデル化レベルとその確率を適応的に調整する新しい量子化法を開発した。
論文 参考訳(メタデータ) (2019-10-23T10:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。