論文の概要: Beyond Uniform Query Distribution: Key-Driven Grouped Query Attention
- arxiv url: http://arxiv.org/abs/2408.08454v2
- Date: Wed, 28 Aug 2024 08:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 20:18:52.304030
- Title: Beyond Uniform Query Distribution: Key-Driven Grouped Query Attention
- Title(参考訳): 均一なクエリ分散を超えて - キー駆動型グループクエリの注意
- Authors: Zohaib Khan, Muhammad Khaquan, Omer Tafveez, Burhanuddin Samiwala, Agha Ali Raza,
- Abstract要約: トランスフォーマーアーキテクチャは、自己認識機構を通じてディープラーニングに革命をもたらした。
Grouped Query Attention (GQA)は、クエリをグループ化し、対応するキー値ヘッドを平均プールすることでこの問題に対処する。
グループ化の静的な性質から逸脱する2つの新しいアプローチに焦点を当てたGQAの拡張を導入する。
- 参考スコア(独自算出の注目度): 3.3457276841127315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer architecture has revolutionized deep learning through its Self-Attention mechanism, which effectively captures contextual information. However, the memory footprint of Self-Attention presents significant challenges for long-sequence tasks. Grouped Query Attention (GQA) addresses this issue by grouping queries and mean-pooling the corresponding key-value heads - reducing the number of overall parameters and memory requirements in a flexible manner without adversely compromising model accuracy. In this work, we introduce enhancements to GQA, focusing on two novel approaches that deviate from the static nature of grouping: Key-Distributed GQA (KDGQA) and Dynamic Key-Distributed GQA (DGQA), which leverage information from the norms of the key heads to inform query allocation. Specifically, KDGQA looks at the ratios of the norms of the key heads during each forward pass, while DGQA examines the ratios of the norms as they evolve through training. Additionally, we present Perturbed GQA (PGQA) as a case-study, which introduces variability in (static) group formation via subtracting noise from the attention maps. Our experiments with up-trained Vision Transformers, for Image Classification on datasets such as CIFAR-10, CIFAR-100, Food101, and Tiny ImageNet, demonstrate the promise of these variants in improving upon the original GQA through more informed and adaptive grouping mechanisms: specifically ViT-L experiences accuracy gains of up to 8% when utilizing DGQA in comparison to GQA and other variants. We further analyze the impact of the number of Key-Value Heads on performance, underscoring the importance of utilizing query-key affinities. Code is available on GitHub.
- Abstract(参考訳): Transformerアーキテクチャは、コンテキスト情報を効果的にキャプチャするセルフアテンションメカニズムを通じて、ディープラーニングに革命をもたらした。
しかし、Self-Attentionのメモリフットプリントは、長時間のタスクに重大な課題をもたらす。
Grouped Query Attention (GQA)は、クエリをグループ化し、対応するキー値ヘッドを平均プールすることでこの問題に対処する。
本稿では,鍵分散GQA(KDGQA)と動的鍵分散GQA(DGQA)という,グループ分けの静的性質から逸脱する2つの新しいアプローチに注目し,GQAの強化を紹介する。
具体的には、KDGQAは各前方通過中のキーヘッドのノルムの比率を調べ、DGQAはトレーニングによって進化するノルムの比率を調べる。
さらに,注意図からノイズを減じることによる(静的な)グループ形成のばらつきをもたらすケーススタディとして,Perturbed GQA(PGQA)を提案する。
CIFAR-10、CIFAR-100、Food101、Tiny ImageNetなどのデータセットの画像分類のためのアップトレーニングされた視覚変換器を用いた実験では、より情報的かつ適応的なグループ化機構により、元のGQAを改善する上でこれらの変異が期待できることを示す。
さらに、キーバリューヘッドの数がパフォーマンスに与える影響を分析し、クエリキー親和性を活用することの重要性を強調する。
コードはGitHubで入手できる。
関連論文リスト
- Boosting CLIP Adaptation for Image Quality Assessment via Meta-Prompt Learning and Gradient Regularization [55.09893295671917]
本稿では,Gdient-Regulated Meta-Prompt IQA Framework (GRMP-IQA)を紹介する。
GRMP-IQAはMeta-Prompt事前学習モジュールとQuality-Aware Gradient Regularizationの2つの主要なモジュールから構成されている。
5つの標準BIQAデータセットの実験は、限られたデータ設定下での最先端BIQA手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - QCQA: Quality and Capacity-aware grouped Query Attention [5.121164018825873]
キー・アンド・バリュー機能(KV-cache)の過剰なメモリ要件は、大規模言語モデル(LLM)の自動回帰推論において重大な課題をもたらす。
本稿では,QCQA(Quality and Aware Grouped Query Attention)を提案する。
論文 参考訳(メタデータ) (2024-06-08T07:49:55Z) - Advancing Vision Transformers with Group-Mix Attention [59.585623293856735]
グループミクス・アテンション(GMA)は、従来の自己アテンションの先進的な代替品である。
GMAは、さまざまなグループサイズとトークン・ツー・トークン・ツー・グループ、グループ・ツー・グループ相関を同時に取得する。
GroupMixFormerは、画像分類、オブジェクト検出、セマンティックセグメンテーションにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-26T01:25:03Z) - VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization [15.554325659263316]
視覚的質問応答(VQA)モデルは、視覚的テキスト推論能力を示すように設計されている。
既存のVQA用の領域一般化データセットは、テキストシフトに一方的な焦点をあてている。
VQA-GEN(VQA-GEN)は、シフト誘導パイプラインによって生成された分散シフトのための最初のマルチモーダルベンチマークデータセットである。
論文 参考訳(メタデータ) (2023-11-01T19:43:56Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - VTAMIQ: Transformers for Attention Modulated Image Quality Assessment [0.0]
本稿では,VTAMIQ(VTAMIQ)を用いた新しい全参照IQA手法を提案する。
本手法は既存のIQAデータセット上での競合や最先端の性能を実現する。
VTAMIQは、分類タスクとIQAタスクの両方に対して大規模な事前訓練を行うことで、目に見えない画像と歪みの集合によく一般化する。
論文 参考訳(メタデータ) (2021-10-04T18:35:29Z) - EQG-RACE: Examination-Type Question Generation [21.17100754955864]
本論文では, RACEから抽出したデータセットをもとに, 試験型質問生成手法 (EQG-RACE) を提案する。
EQG-RACEでは、離散的な回答情報を扱うための2つの主要な戦略と、長い文脈における推論が採用されています。
実験結果は、ベースラインよりも優れたEQG-RACEの最先端の性能を示しています。
論文 参考訳(メタデータ) (2020-12-11T03:52:17Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Social Adaptive Module for Weakly-supervised Group Activity Recognition [143.68241396839062]
本稿では、弱教師付きグループ活動認識(GAR)と呼ばれる新しいタスクを提案する。
従来のGARタスクとは違い、ビデオレベルラベルのみが利用可能であるが、トレーニングデータにおいても、各フレーム内の重要人物は提供されない。
これにより、大規模なNBAデータセットの収集とアノテートが容易になり、GARに新たな課題が生まれます。
論文 参考訳(メタデータ) (2020-07-18T16:40:55Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。