論文の概要: GQA: Training Generalized Multi-Query Transformer Models from Multi-Head
Checkpoints
- arxiv url: http://arxiv.org/abs/2305.13245v2
- Date: Tue, 24 Oct 2023 00:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:54:57.205590
- Title: GQA: Training Generalized Multi-Query Transformer Models from Multi-Head
Checkpoints
- Title(参考訳): GQA:マルチヘッドチェックポイントを用いた汎用マルチクエリトランスフォーマモデルの訓練
- Authors: Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy,
Federico Lebr\'on, Sumit Sanghai
- Abstract要約: 本稿では,既存のマルチヘッド言語モデルのチェックポイントを MQA モデルにアップトレーニングする手法を提案する。
トレーニングされたGQAはMQAに匹敵する速度でマルチヘッドで品質を向上することを示す。
- 参考スコア(独自算出の注目度): 25.154477500940626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-query attention (MQA), which only uses a single key-value head,
drastically speeds up decoder inference. However, MQA can lead to quality
degradation, and moreover it may not be desirable to train a separate model
just for faster inference. We (1) propose a recipe for uptraining existing
multi-head language model checkpoints into models with MQA using 5% of original
pre-training compute, and (2) introduce grouped-query attention (GQA), a
generalization of multi-query attention which uses an intermediate (more than
one, less than number of query heads) number of key-value heads. We show that
uptrained GQA achieves quality close to multi-head attention with comparable
speed to MQA.
- Abstract(参考訳): 単一のキー値ヘッドのみを使用するマルチクエリアテンション(MQA)は、デコーダ推論を大幅に高速化する。
しかし、MQAは品質の低下につながる可能性があるし、より高速な推論のためだけに別のモデルをトレーニングすることは望ましくないかもしれない。
1) 既存のマルチヘッド言語モデルのチェックポイントを、従来の事前学習計算の5%を用いてMQAモデルにアップトレーニングするためのレシピを提案し、(2) キー値ヘッドの中間数(クエリヘッド数より少ない数)を使用するマルチクエリアテンションの一般化であるグループクエリアテンション(GQA)を導入する。
トレーニングされたGQAはMQAに匹敵する速度でマルチヘッドで品質を実現することを示す。
関連論文リスト
- Beyond Uniform Query Distribution: Key-Driven Grouped Query Attention [3.3457276841127315]
トランスフォーマーアーキテクチャは、自己認識機構を通じてディープラーニングに革命をもたらした。
Grouped Query Attention (GQA)は、クエリをグループ化し、対応するキー値ヘッドを平均プールすることでこの問題に対処する。
グループ化の静的な性質から逸脱する2つの新しいアプローチに焦点を当てたGQAの拡張を導入する。
論文 参考訳(メタデータ) (2024-08-15T23:34:04Z) - Answer, Assemble, Ace: Understanding How Transformers Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。
我々は,関連する情報を符号化するキー隠蔽状態をローカライズするために,語彙投影とアクティベーションパッチ手法を用いる。
特定の回答記号の予測は、一つの中間層、特にその多頭部自己認識機構に因果関係があることが示される。
論文 参考訳(メタデータ) (2024-07-21T00:10:23Z) - QCQA: Quality and Capacity-aware grouped Query Attention [5.121164018825873]
キー・アンド・バリュー機能(KV-cache)の過剰なメモリ要件は、大規模言語モデル(LLM)の自動回帰推論において重大な課題をもたらす。
本稿では,QCQA(Quality and Aware Grouped Query Attention)を提案する。
論文 参考訳(メタデータ) (2024-06-08T07:49:55Z) - Reducing Transformer Key-Value Cache Size with Cross-Layer Attention [19.796549720022554]
隣接するレイヤ間でキーとバリューヘッドを共有することで、マルチクエリ注意をさらに一歩進めることが可能であることを示す。
また,未修正MQAとほぼ同じ精度を維持しながら,KVキャッシュのサイズを2倍に削減できることが判明した。
論文 参考訳(メタデータ) (2024-05-21T17:59:29Z) - Recipes for Sequential Pre-training of Multilingual Encoder and Seq2Seq
Models [16.49601740473416]
1つのモデルを他のモデルから初期化することで、トレーニング効率を向上させるためのレシピを探索する。
エンコーダを用いてSeq2seqのトレーニングを温めることで、Scratch Seq2seqモデルのタスク性能にマッチできることを示す。
論文 参考訳(メタデータ) (2023-06-14T21:41:52Z) - Modularized Zero-shot VQA with Pre-trained Models [20.674979268279728]
本稿では,質問をサブ推論ステップに明示的に分解し,高度に解釈可能なモジュール化されたゼロショットネットワークを提案する。
ゼロショット設定下での2つのVQAベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-27T05:00:14Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - QA4QG: Using Question Answering to Constrain Multi-Hop Question
Generation [54.136509061542775]
マルチホップ質問生成(MQG)は、入力パスの複数の情報に対する推論を必要とする複雑な質問を生成することを目的としている。
MQGのためのQA強化BARTベースのフレームワークであるQA4QGを提案する。
HotpotQAデータセットの結果は、QA4QGがすべての最先端モデルより優れていることを示している。
論文 参考訳(メタデータ) (2022-02-14T08:16:47Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。