論文の概要: KV-Distill: Nearly Lossless Learnable Context Compression for LLMs
- arxiv url: http://arxiv.org/abs/2503.10337v1
- Date: Thu, 13 Mar 2025 13:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:56.227741
- Title: KV-Distill: Nearly Lossless Learnable Context Compression for LLMs
- Title(参考訳): KV-Distill:LLMのためのほとんど無意味な学習可能なコンテキスト圧縮
- Authors: Vivek Chari, Guanghui Qin, Benjamin Van Durme,
- Abstract要約: 我々は、長いコンテキストKVキャッシュをはるかに短い表現に蒸留するTransformer圧縮フレームワークであるKV-Distillを紹介する。
KV-Distillは、事前訓練されたモデルに対するパラメータ効率の良い適応器として訓練することができる。
ドメイン固有のコンテキストを微調整することで、下流のパフォーマンスを維持しながら、最大99%の長さを削減できる。
- 参考スコア(独自算出の注目度): 37.0803484148612
- License:
- Abstract: Sequence-to-sequence tasks often benefit from long contexts, but the quadratic complexity of self-attention in standard Transformers renders this non-trivial. During generation, temporary representations -stored in the so-called KV cache-account for a large portion of GPU memory usage and scale linearly with context length. We introduce KV-Distill, a Transformer compression framework that distills long context KV caches into significantly shorter representations in a question-independent fashion. KV-Distill can be trained as a parameter-efficient adaptor for pretrained models, and enables the compression of arbitrary spans of a context while preserving pre-trained model capabilities. We treat a compressed-uncompressed cache as a student-teacher pairing and apply a KL-type divergence to match the generated outputs. KV-Distill outperforms other compression techniques in worst-case extractive tasks and approaches uncompressed performance in long context question answering and summarization, and it can be fine-tuned on domain-specific contexts to reduce lengths by up to 99% while preserving downstream performance. We demonstrate the generalizability of KV-Distill across various model sizes and architectures.
- Abstract(参考訳): シーケンス・ツー・シーケンスのタスクは長いコンテキストの恩恵を受けることが多いが、標準的なトランスフォーマーにおける自己注意の二次的な複雑さは、この非自明さを表現している。
生成中、一時的な表現 -いわゆるKVキャッシュアカウントに格納され、GPUメモリ使用量の大部分を占め、コンテキスト長と線形にスケールする。
KV-Distillは,長いコンテキストKVキャッシュを質問非依存で非常に短い表現に蒸留する,トランスフォーマー圧縮フレームワークである。
KV-Distillは、事前訓練されたモデルに対するパラメータ効率の高い適応器として訓練することができ、事前訓練されたモデル機能を保持しながら、コンテキストの任意のスパンの圧縮を可能にする。
圧縮非圧縮キャッシュを学生と教師のペアリングとして扱い、生成した出力にKL型分散を適用する。
KV-Distillは、最悪の抽出タスクにおいて他の圧縮技術よりも優れており、長い文脈での質問応答と要約において圧縮されていないパフォーマンスにアプローチする。
KV-Distillの様々なモデルサイズとアーキテクチャにおける一般化可能性を示す。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。
CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。
我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文 参考訳(メタデータ) (2024-09-16T17:36:50Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - Once-for-All Sequence Compression for Self-Supervised Speech Models [62.60723685118747]
自己教師型音声モデルのための一括圧縮フレームワークを提案する。
このフレームワークは様々なタスクで評価され、固定圧縮率の変種と比較して限界劣化を示す。
また、適応圧縮率学習についても検討し、グリッド探索を必要とせず、タスク固有の好ましいフレーム期間を選択する能力を示す。
論文 参考訳(メタデータ) (2022-11-04T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。