Fugu-MT 論文翻訳(概要): Slim attention: cut your context memory in half without loss of accuracy -- K-cache is all you need for MHA

論文の概要: Slim attention: cut your context memory in half without loss of accuracy -- K-cache is all you need for MHA

arxiv url: http://arxiv.org/abs/2503.05840v1
Date: Fri, 07 Mar 2025 01:44:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.016886
Title: Slim attention: cut your context memory in half without loss of accuracy -- K-cache is all you need for MHA
Title（参考訳）: スリムな注意: 正確さを損なうことなくコンテキストメモリを半減する -- K-cacheは、MHAに必要なすべてです。
Authors: Nils Graef, Andrew Wasielewski,
Abstract要約: MHA(multi-head attention)を有する変圧器モデルにおけるスリムアテンションによる文脈記憶の2倍縮小エンコーダ・デコーダ変換器では、コンテキストメモリサイズをさらに小さくすることができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Slim attention shrinks the context memory size by 2x for transformer models with MHA (multi-head attention), which can speed up inference by up to 2x for large context windows. Slim attention is an exact, mathematically identical implementation of the standard attention mechanism and therefore does not compromise model accuracy. In other words, slim attention losslessly compresses the context memory by a factor of 2. For encoder-decoder transformers, the context memory size can be reduced even further: For the Whisper models for example, slim attention reduces the context memory by 8x, which can speed up token generation by 5x for batch size 64 for example. And for rare cases where the MHA projection dimension is larger than the embedding dimension, the memory can be reduced by a factor of 32 for the T5-11B model for example. See https://github.com/OpenMachine-ai/transformer-tricks for code and more transformer tricks, and https://www.youtube.com/watch?v=uVtk3B6YO4Y for a video about this paper.
Abstract（参考訳）: スリムアテンションは、MHA (multi-head attention) を持つトランスフォーマーモデルではコンテキストメモリサイズを2倍に縮小し、大きなコンテキストウィンドウでは最大2倍の推論を高速化する。スリムアテンション(Slim attention)は、標準アテンション機構の数学的に同一な実装であるため、モデル精度を損なわない。言い換えれば、スリムアテンションはコンテキストメモリを2で無作為に圧縮する。例えば、Whisperモデルでは、スリムアテンションはコンテキストメモリを8倍に減らし、バッチサイズ64のトークン生成を5倍高速化する。また、MHA投影次元が埋め込み次元よりも大きい稀なケースでは、例えばT5-11Bモデルの場合、メモリを32倍小さくすることができる。 https://github.com/OpenMachine-ai/transformer-tricks for code and more transformer trick, and https://www.youtube.com/watch? この論文のビデオは、v=uVtk3B6YO4Y。

関連論文リスト

CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文参考訳（メタデータ） (2025-06-23T17:50:11Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
Eigen Attention: Attention in Low-Rank Space for KV Cache Compression [9.080678336379528]
我々は,低ランク空間における注意操作を行うEigen Attentionを提案し,KVキャッシュメモリのオーバーヘッドを低減する。その結果,Eigen AttentionはKVキャッシュサイズを最大40%削減し,注目動作遅延を最大60%低減し,性能の低下を最小化できることがわかった。
論文参考訳（メタデータ） (2024-08-10T22:47:12Z)
You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4064488592704]
大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。 YOCOはキーと値のペアを一度だけキャッシュする。全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
論文参考訳（メタデータ） (2024-05-08T17:57:39Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文参考訳（メタデータ） (2023-09-04T10:27:17Z)
Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time [38.147965013060144]
大規模言語モデル(LLM)は、エキサイティングなAIアプリケーションに新たな波を巻き起こした。デプロイメントにおける重要なメモリボトルネックのひとつは、コンテキストウィンドウにある。固定予算でKVキャッシュのメモリ使用量を維持するシステムであるScisorhandsを提案する。
論文参考訳（メタデータ） (2023-05-26T17:39:58Z)
ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。 ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文参考訳（メタデータ） (2021-10-06T03:53:25Z)
Memory Optimization for Deep Networks [10.519610439720909]
我々は、ディープネットワークのメモリフットプリントと計算オーバーヘッドを最小化する自動フレームワークMONeTを提案する。 MoneTは、様々なPyTorchモデルのメモリ要求を3倍に減らし、計算のオーバーヘッドは9-16%である。同じ計算コストで、MONeTは現在の最先端の自動チェックポイントフレームワークよりも1.2-1.8倍少ないメモリを必要とする。
論文参考訳（メタデータ） (2020-10-27T17:57:34Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。