論文の概要: GQKVA: Efficient Pre-training of Transformers by Grouping Queries, Keys,
and Values
- arxiv url: http://arxiv.org/abs/2311.03426v2
- Date: Wed, 13 Dec 2023 16:57:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:17:44.658505
- Title: GQKVA: Efficient Pre-training of Transformers by Grouping Queries, Keys,
and Values
- Title(参考訳): GQKVA: クエリ、キー、値のグルーピングによるトランスフォーマーの効率的な事前トレーニング
- Authors: Farnoosh Javadi, Walid Ahmed, Habib Hajimolahoseini, Foozhan
Ataiefard, Mohammad Hassanpour, Saina Asani, Austin Wen, Omar Mohamed Awad,
Kangling Liu, Yang Liu
- Abstract要約: GQKVAはモデルサイズを小さくしながら、トランスフォーマーの事前訓練を高速化するように設計されている。
GQKVAの様々なバリエーションによる実験は、性能とモデルサイズの間の明確なトレードオフを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 3.960622297616708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massive transformer-based models face several challenges, including slow and
computationally intensive pre-training and over-parametrization. This paper
addresses these challenges by proposing a versatile method called GQKVA, which
generalizes query, key, and value grouping techniques. GQKVA is designed to
speed up transformer pre-training while reducing the model size. Our
experiments with various GQKVA variants highlight a clear trade-off between
performance and model size, allowing for customized choices based on resource
and time limitations. Our findings also indicate that the conventional
multi-head attention approach is not always the best choice, as there are
lighter and faster alternatives available. We tested our method on ViT, which
achieved an approximate 0.3% increase in accuracy while reducing the model size
by about 4% in the task of image classification. Additionally, our most
aggressive model reduction experiment resulted in a reduction of approximately
15% in model size, with only around a 1% drop in accuracy.
- Abstract(参考訳): 大量トランスフォーマーベースのモデルは、遅くて計算集約的な事前学習や過度パラメトリゼーションなど、いくつかの課題に直面している。
本稿では,クエリ,キー,値のグルーピングを一般化したGQKVAという多元的手法を提案する。
GQKVAはモデルサイズを小さくしながらトランスフォーマーの事前訓練を高速化するように設計されている。
GQKVAのさまざまなバリエーションによる実験では、パフォーマンスとモデルサイズの間に明確なトレードオフが示され、リソースと時間制限に基づいてカスタマイズされた選択が可能になる。
また,より軽量で高速な代替手段があるため,従来の多頭注意アプローチが必ずしも最善の選択ではないことも示唆した。
画像分類の作業において, モデルサイズを約4%削減しつつ, 精度を約0.3%向上させたvitを用いて実験を行った。
さらに,最も攻撃的なモデル縮小実験の結果,モデルサイズが約15%削減され,精度は1%程度低下した。
関連論文リスト
- VTrans: Accelerating Transformer Compression with Variational Information Bottleneck based Pruning [3.256420760342604]
本稿では,変分情報ボトルネック (VIB) の原理によって導かれる反復的刈り取りフレームワーク VTrans を提案する。
提案手法は,VIBトレーニングマスクを用いた埋め込み,アテンションヘッド,層など,すべての構造成分を圧縮する。
特に,本手法は従来の最先端手法よりも最大70%圧縮を実現する。
論文 参考訳(メタデータ) (2024-06-07T22:07:46Z) - FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Megapixel Image Generation with Step-Unrolled Denoising Autoencoders [5.145313322824774]
本稿では,サンプルの解像度を高くする手法と,トレーニングとサンプリングの計算要求を低減させる手法の組み合わせを提案する。
例えば、ベクトル量子化GAN(VQ-GAN)、高レベルの損失 - しかし知覚的に重要 - 圧縮 - が可能なベクトル量子化(VQ)モデル、時間ガラストランスフォーマー、高スケールの自己アテンションモデル、非自己回帰(NAR)テキスト生成モデルであるステップ制御型デノイングオートエンコーダ(SUNDAE)などがある。
提案するフレームワークは,高解像度(1024×1024$)までスケールし,(高速で)トレーニングを行う。
論文 参考訳(メタデータ) (2022-06-24T15:47:42Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Multi-Dimensional Model Compression of Vision Transformer [21.8311401851523]
近年、視覚変換器 (ViT) が注目されているが、その膨大な計算コストは実用的展開において問題となっている。
従来のViTプルーニング法は、モデルを1次元だけに沿ってプルークする傾向がある。
我々は,多次元のViT圧縮パラダイムを提唱し,アテンションヘッド,ニューロン,シーケンス次元からの冗長性低減を共同で行うことを提案する。
論文 参考訳(メタデータ) (2021-12-31T19:54:18Z) - AxFormer: Accuracy-driven Approximation of Transformers for Faster,
Smaller and more Accurate NLP Models [4.247712017691596]
AxFormerは、特定の下流タスクのために最適化されたトランスフォーマーモデルを作成するために、精度駆動の近似を適用するフレームワークである。
実験の結果,AxFormerモデルの方が最大4.5%精度が高く,2.5倍高速で3.2倍小型であることがわかった。
論文 参考訳(メタデータ) (2020-10-07T23:29:34Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。