論文の概要: EL-Attention: Memory Efficient Lossless Attention for Generation
- arxiv url: http://arxiv.org/abs/2105.04779v1
- Date: Tue, 11 May 2021 04:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:08:06.836257
- Title: EL-Attention: Memory Efficient Lossless Attention for Generation
- Title(参考訳): ELアテンション: 生成のためのメモリ効率の良いロスレスアテンション
- Authors: Yu Yan, Jiusheng Chen, Weizhen Qi, Nikhil Bhendawade, Yeyun Gong, Nan
Duan and Ruofei Zhang
- Abstract要約: この問題に対処するために,メモリ効率の低い注意(ELアテンション)を提案する。
キャッシュを使用する必要がなく、マルチヘッドキーと値を構築するための重い操作を避ける。
要約タスクと質問生成タスクのためのTransformer, BART, GPT-2について広範な実験を行った。
- 参考スコア(独自算出の注目度): 27.59275177303199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer model with multi-head attention requires caching intermediate
results for efficient inference in generation tasks. However, cache brings new
memory-related costs and prevents leveraging larger batch size for faster
speed. We propose memory-efficient lossless attention (called EL-attention) to
address this issue. It avoids heavy operations for building multi-head keys and
values, with no requirements of using cache. EL-attention constructs an
ensemble of attention results by expanding query while keeping key and value
shared. It produces the same result as multi-head attention with less GPU
memory and faster inference speed. We conduct extensive experiments on
Transformer, BART, and GPT-2 for summarization and question generation tasks.
The results show EL-attention speeds up existing models by 1.6x to 5.3x without
accuracy loss.
- Abstract(参考訳): マルチヘッド注意を伴うトランスフォーマーモデルは、生成タスクの効率的な推論のために中間結果をキャッシュする必要がある。
しかし、キャッシュは新しいメモリ関連のコストをもたらし、より高速なバッチサイズを活用するのを防ぐ。
この問題に対処するために,メモリ効率の低い注意(ELアテンション)を提案する。
キャッシュを使用する必要がなく、マルチヘッドキーと値を構築するための重い操作を避ける。
el-attentionは、キーと値を共有しながらクエリを拡張することによって、注意結果のアンサンブルを構築する。
これは、GPUメモリが少なく、推論速度が速いマルチヘッドアテンションと同じ結果をもたらす。
要約タスクと質問生成タスクのためのTransformer, BART, GPT-2について広範な実験を行った。
その結果、ELアテンションは精度を失うことなく既存のモデルを1.6倍から5.3倍に高速化した。
関連論文リスト
- ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - EfficientViT: Memory Efficient Vision Transformer with Cascaded Group
Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。
既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。
この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:59:41Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。