Fugu-MT 論文翻訳(概要): LoMA: Lossless Compressed Memory Attention

論文の概要: LoMA: Lossless Compressed Memory Attention

arxiv url: http://arxiv.org/abs/2401.09486v2
Date: Sun, 4 Feb 2024 03:14:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 03:06:15.786850
Title: LoMA: Lossless Compressed Memory Attention
Title（参考訳）: LoMA: ロスレス圧縮メモリ注意
Authors: Yumeng Wang, Zhenyang Xiao
Abstract要約: Lossless Compressed Memory Attention (LoMA) は、自己回帰生成時のメモリと計算要求を減らす新しいアプローチである。 LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。実験的検証により、LoMAは計算消費とメモリ使用量を大幅に削減した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) face limitations due to the high demand on GPU memory and computational resources when handling long contexts. While sparsify the Key-Value (KV) cache of transformer model is a typical strategy to alleviate resource usage, it unavoidably results in the loss of information. We introduce Lossless Compressed Memory Attention (LoMA), a novel approach that enables lossless compression of the KV cache, thereby reducing the memory and computational demands during autoregressive generation. LoMA incorporates a specialized training or fine-tuning precedure alongside an autoregressive generation algorithm optimized for the compressed context. Our method compresses the KV cache after every $tc$ generated tokens with a compression ratio of $c$ and a target compressed length $t$, and this process occurs within a single inference pass without dependency on auxiliary models. We engineered an efficient training scheme involving specific inputs, attention masks, and position identifiers to instill this compression capability. Experimental validation has demonstrated that LoMA significantly reducing computational consumption and memory usage through achieving lossless KV cache compression.
Abstract（参考訳）: 大きな言語モデル(LLM)は、長いコンテキストを扱う場合のGPUメモリと計算リソースの要求が高いため、制限に直面します。トランスフォーマーモデルのキー値キャッシュ(kv)をスパーシフィケーションすることは、リソースの使用を緩和する典型的な戦略であるが、情報を失うことは避けられない。本稿では,kvキャッシュのロスレス圧縮を可能にする新しい手法であるロスレス圧縮メモリアテンション(loma)を導入する。 LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。提案手法は,各$tc$生成トークンの圧縮比$c$と目標圧縮長$t$の後にKVキャッシュを圧縮し,補助モデルに依存しない単一推論パス内で発生する。我々は,特定の入力,アテンションマスク,位置識別子を含む効率的なトレーニングスキームを考案し,その圧縮能力を再現した。実験により、ロマは損失のないKVキャッシュ圧縮を達成し、計算消費とメモリ使用量を大幅に削減した。

関連論文リスト

DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。 DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文参考訳（メタデータ） (2026-02-08T15:14:36Z)
CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving [5.216774377033164]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。 LLMはキー値(KV)キャッシュの大規模なメモリ要求のため、課題に直面している。我々は,新しい分散KV-cacheアーキテクチャである textbfCXL-SpecKV を提案する。
論文参考訳（メタデータ） (2025-12-11T15:40:36Z)
SWAN: Sparse Winnowed Attention for Reduced Inference Memory via Decompression-Free KV-Cache Compression [7.603859408568262]
大きな言語モデル(LLM)は、キーバリュー(KV)キャッシュの巨大なメモリフットプリントのため、自動回帰推論において重大なボトルネックに直面します。 SWANは、このオーバーヘッドをなくす、新しい、微調整不要なフレームワークである。提案手法はオフライン行列を用いてKV-cacheを回転させプルークする。
論文参考訳（メタデータ） (2025-11-24T09:41:24Z)
Breadcrumbs Reasoning: Memory-Efficient Reasoning with Compression Beacons [22.085345397844687]
本稿では,KVキャッシュを学習用専用トークンで周期的に圧縮することを提案する。我々は, この圧縮を行うために, 改良された共同蒸留および強化学習フレームワークを用いてモデルを訓練する。本手法は,キャッシュ圧縮のないモデルとトレーニング不要な圧縮技術の両方と比較して,優れたメモリ精度のフロンティアを実現する。
論文参考訳（メタデータ） (2025-10-15T17:57:21Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [7.958429361868486]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。 ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文参考訳（メタデータ） (2025-03-13T03:36:03Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [28.96662510838151]
セマンティックチャンクを基本圧縮単位として扱うことにより,KVキャッシュの圧縮を再現するChunkKVを提案する。このアプローチは完全な言語構造と文脈整合性を保持し、攻撃的な圧縮の下でも本質的な意味が維持されることを保証する。 ChunkKVは、同じ圧縮比を維持しながら8.7%の精度で最先端の手法より優れている。
論文参考訳（メタデータ） (2025-02-01T03:49:47Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文参考訳（メタデータ） (2024-06-11T08:37:33Z)
ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification [19.985314022860432]
KVキャッシュは、再計算を避けるために、以前のトークンからキーと値の状態を格納する。 KVキャッシュ圧縮はトークンの正当性を識別し、重要でないトークンを積極的に圧縮しながら重要な情報を保存する。 LLMの高精度かつ効率的なKVキャッシュ量子化手法ZipCacheを提案する。
論文参考訳（メタデータ） (2024-05-23T07:37:16Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。 PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文参考訳（メタデータ） (2024-05-21T06:46:37Z)
Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference [1.9639467358416092]
トランスフォーマーは、大きな言語モデル(LLM)のバックボーンとして登場した。本稿では,動的メモリ圧縮(DMC)を提案する。 Llama 2 (7B, 13B, 70B) などの事前学習 LLM を DMC トランスフォーマーに適合させ,NVIDIA H100 GPU 上での自己回帰推論で最大 7 倍のスループット向上を実現した。
論文参考訳（メタデータ） (2024-03-14T17:59:26Z)
Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。 i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文参考訳（メタデータ） (2021-02-15T18:19:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。