Fugu-MT 論文翻訳(概要): EL-Attention: Memory Efficient Lossless Attention for Generation

論文の概要: EL-Attention: Memory Efficient Lossless Attention for Generation

arxiv url: http://arxiv.org/abs/2105.04779v1
Date: Tue, 11 May 2021 04:37:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-12 14:08:06.836257
Title: EL-Attention: Memory Efficient Lossless Attention for Generation
Title（参考訳）: ELアテンション: 生成のためのメモリ効率の良いロスレスアテンション
Authors: Yu Yan, Jiusheng Chen, Weizhen Qi, Nikhil Bhendawade, Yeyun Gong, Nan Duan and Ruofei Zhang
Abstract要約: この問題に対処するために,メモリ効率の低い注意(ELアテンション)を提案する。キャッシュを使用する必要がなく、マルチヘッドキーと値を構築するための重い操作を避ける。要約タスクと質問生成タスクのためのTransformer, BART, GPT-2について広範な実験を行った。
参考スコア（独自算出の注目度）: 27.59275177303199
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer model with multi-head attention requires caching intermediate results for efficient inference in generation tasks. However, cache brings new memory-related costs and prevents leveraging larger batch size for faster speed. We propose memory-efficient lossless attention (called EL-attention) to address this issue. It avoids heavy operations for building multi-head keys and values, with no requirements of using cache. EL-attention constructs an ensemble of attention results by expanding query while keeping key and value shared. It produces the same result as multi-head attention with less GPU memory and faster inference speed. We conduct extensive experiments on Transformer, BART, and GPT-2 for summarization and question generation tasks. The results show EL-attention speeds up existing models by 1.6x to 5.3x without accuracy loss.
Abstract（参考訳）: マルチヘッド注意を伴うトランスフォーマーモデルは、生成タスクの効率的な推論のために中間結果をキャッシュする必要がある。しかし、キャッシュは新しいメモリ関連のコストをもたらし、より高速なバッチサイズを活用するのを防ぐ。この問題に対処するために,メモリ効率の低い注意(ELアテンション)を提案する。キャッシュを使用する必要がなく、マルチヘッドキーと値を構築するための重い操作を避ける。 el-attentionは、キーと値を共有しながらクエリを拡張することによって、注意結果のアンサンブルを構築する。これは、GPUメモリが少なく、推論速度が速いマルチヘッドアテンションと同じ結果をもたらす。要約タスクと質問生成タスクのためのTransformer, BART, GPT-2について広範な実験を行った。その結果、ELアテンションは精度を失うことなく既存のモデルを1.6倍から5.3倍に高速化した。

関連論文リスト

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
GTA: Grouped-head latenT Attention [44.19575886935378]
KVキャッシュと注意計算がテキスト長で急速にスケールするにつれて、重大なボトルネックが発生する。我々は,性能を維持しながらメモリ使用量と計算複雑性を低減させる新しいアテンション機構である textbfGrouped-Head LatentextbfT textbfAttention (GTA) を提案する。 GTA は FLOP を emph62.5% 対 Grouped-Query Attention で削減し、KV キャッシュを emph70% まで縮小する。
論文参考訳（メタデータ） (2025-06-15T07:19:33Z)
ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [7.958429361868486]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。 ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文参考訳（メタデータ） (2025-03-13T03:36:03Z)
XKV: Personalized KV Cache Memory Reduction for Long-Context LLM Inference [9.65524177141491]
大規模言語モデル(LLM)推論は出力トークンを1つずつ生成し、多くの冗長な計算に繋がる。 KV-Cacheフレームワークは時間と空間の複雑さを妥協する。既存の研究では、推論精度に重要でないキャッシュデータの一部を削除することで、メモリ消費を減らすことができる。各レイヤのキャッシュサイズをパーソナライズしてカスタマイズすることで,メモリの大幅な削減が期待できることを示す。
論文参考訳（メタデータ） (2024-12-08T11:32:08Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文参考訳（メタデータ） (2023-05-11T17:59:41Z)
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。 FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文参考訳（メタデータ） (2022-05-27T17:53:09Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。