Fugu-MT 論文翻訳(概要): KVPruner: Structural Pruning for Faster and Memory-Efficient Large Language Models

論文の概要: KVPruner: Structural Pruning for Faster and Memory-Efficient Large Language Models

arxiv url: http://arxiv.org/abs/2409.11057v1
Date: Tue, 17 Sep 2024 10:35:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 17:05:36.327431
Title: KVPruner: Structural Pruning for Faster and Memory-Efficient Large Language Models
Title（参考訳）: KVPruner: 高速かつメモリ効率の良い大規模言語モデルのための構造解析
Authors: Bo Lv, Quan Zhou, Xuanang Ding, Yan Wang, Zeming Ma,
Abstract要約: 性能を維持しながらモデル効率を向上させるため,KVPrunerを提案する。オリジナルのモデルと比較して、KVPrunerはランタイムメモリ使用量を50%削減し、スループットを35%以上向上させた。
参考スコア（独自算出の注目度）: 6.919270710497231
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The bottleneck associated with the key-value(KV) cache presents a significant challenge during the inference processes of large language models. While depth pruning accelerates inference, it requires extensive recovery training, which can take up to two weeks. On the other hand, width pruning retains much of the performance but offers slight speed gains. To tackle these challenges, we propose KVPruner to improve model efficiency while maintaining performance. Our method uses global perplexity-based analysis to determine the importance ratio for each block and provides multiple strategies to prune non-essential KV channels within blocks. Compared to the original model, KVPruner reduces runtime memory usage by 50% and boosts throughput by over 35%. Additionally, our method requires only two hours of LoRA fine-tuning on small datasets to recover most of the performance.
Abstract（参考訳）: キー値(KV)キャッシュに関連するボトルネックは、大規模言語モデルの推論プロセスにおいて大きな課題となる。深度プルーニングは推論を加速するが、広範囲な回復訓練が必要であり、最大2週間を要する。一方、ワイドプルーニングは性能の多くを保ちながら、若干の速度向上をもたらす。これらの課題に対処するため、我々はKVPrunerを提案し、性能を維持しながらモデル効率を向上させる。提案手法は,グローバルなパープレキシティ分析を用いて,ブロックごとの重要度を判定し,ブロック内の非必要KVチャネルを創出するための複数の戦略を提供する。オリジナルのモデルと比較して、KVPrunerはランタイムメモリ使用量を50%削減し、スループットを35%以上向上させた。さらに本手法では,性能を回復するために,小さなデータセット上でのLORAの微調整を2時間しか必要としない。

関連論文リスト

IteRABRe: Iterative Recovery-Aided Block Reduction [36.37457533156018]
IteRABReは、計算資源を最小限に抑えつつ、優れた圧縮結果を達成する、単純で効果的な反復的プルーニング手法である。 IteRABReは言語能力の保存において特に強みを示し、言語関連タスクのベースラインよりも5%改善している。
論文参考訳（メタデータ） (2025-03-08T17:46:01Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
BaKlaVa -- Budgeted Allocation of KV cache for Long-context Inference [6.222836318380985]
BaKlaVaは、モデル全体で個々のKVキャッシュに対して最適なメモリを割り当てる手法である。 LLaMA-3-8BモデルとQwen2.5-7Bモデルについて検討した。
論文参考訳（メタデータ） (2025-02-18T04:08:29Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
VTrans: Accelerating Transformer Compression with Variational Information Bottleneck based Pruning [3.256420760342604]
本稿では,変分情報ボトルネック (VIB) の原理によって導かれる反復的刈り取りフレームワーク VTrans を提案する。提案手法は,VIBトレーニングマスクを用いた埋め込み,アテンションヘッド,層など,すべての構造成分を圧縮する。特に,本手法は従来の最先端手法よりも最大70%圧縮を実現する。
論文参考訳（メタデータ） (2024-06-07T22:07:46Z)
MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。 KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T09:43:52Z)
KV Cache is 1 Bit Per Channel: Efficient Large Language Model Inference with Coupled Quantization [34.824534775022144]
KVキャッシュ圧縮の手法として結合量子化(CQ)を提案する。 CQは複数のキー/バリューチャネルを結合して、その依存性を利用して、より情報効率の良い方法でアクティベーションをエンコードする。我々は,KVキャッシュを1ビットまで量子化することで,CQがモデル品質を維持できることを実証した。
論文参考訳（メタデータ） (2024-05-07T00:25:20Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。