Fugu-MT 論文翻訳(概要): FreqKV: Frequency Domain Key-Value Compression for Efficient Context Window Extension

論文の概要: FreqKV: Frequency Domain Key-Value Compression for Efficient Context Window Extension

arxiv url: http://arxiv.org/abs/2505.00570v2
Date: Mon, 19 May 2025 02:21:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.637159
Title: FreqKV: Frequency Domain Key-Value Compression for Efficient Context Window Extension
Title（参考訳）: FreqKV: 効率的なコンテキストウィンドウ拡張のための周波数領域キー値圧縮
Authors: Jushi Kai, Boyi Zeng, Yixuan Wang, Haoli Bai, Ziwei He, Bo Jiang, Zhouhan Lin,
Abstract要約: 本稿では、新しい周波数領域鍵値(KV)圧縮技術であるFreqKVを提案する。 Freq KVはデコーダのみの大規模言語モデル(LLM)のための効率的なコンテキストウィンドウ拡張を可能にする長い文脈言語モデリングおよび理解タスクの実験は,提案手法の有効性と有効性を示す。
参考スコア（独自算出の注目度）: 20.360392907997117
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Frequency-domain compression has proven effective in reducing redundancies for spatial signals. In this work, we propose FreqKV, a novel frequency domain key-value (KV) compression technique that enables efficient context window extension for decoder-only large language models (LLMs). Our approach is motivated by a key observation that, in the frequency domain, the energy distribution of the KV cache is predominantly concentrated in low-frequency components. By discarding high-frequency components, we achieve efficient compression of the KV cache with minimal information loss. FreqKV iteratively compresses the increasing KV cache to a fixed size in the frequency domain, allowing models to process lengthy contexts efficiently. Introducing no additional parameters or architectural modifications, FreqKV is applicable to both fine-tuning and inference. With minimal fine-tuning, LLMs can learn to leverage the limited cache that is compressed in the frequency domain and extend the context window. Experiments on a range of long context language modeling and understanding tasks demonstrate the efficiency and effectiveness of the proposed method.
Abstract（参考訳）: 周波数領域圧縮は空間信号の冗長性を低減するのに有効であることが証明されている。本稿では,周波数領域キー値(KV)圧縮技術であるFreqKVを提案する。我々のアプローチは、周波数領域において、KVキャッシュのエネルギー分布が主に低周波成分に集中しているというキー観察によって動機付けられている。高周波成分を廃棄することにより、情報損失を最小限に抑えたKVキャッシュの効率的な圧縮を実現する。 FreqKVは、増大するKVキャッシュを周波数領域の固定サイズに反復的に圧縮し、モデルが長いコンテキストを効率的に処理できるようにする。追加のパラメータやアーキテクチャの変更は導入されず、FreqKVは微調整と推論の両方に適用できる。最小限の微調整で、LLMは周波数領域で圧縮された限られたキャッシュを活用でき、コンテキストウィンドウを拡張することができる。長い文脈言語モデリングおよび理解タスクの実験は,提案手法の有効性と有効性を示す。

関連論文リスト

KQ-SVD: Compressing the KV Cache with Provable Guarantees on Attention Fidelity [6.542188603141656]
キーバリューキャッシュは、大きな言語モデルの効率の中心である。シーケンスの長さとバッチサイズが大きくなると、キャッシュは大きなメモリボトルネックとなる。我々は,注目行列の最適低ランク分解を直接行う,単純で効率的なKQ-SVDを提案する。
論文参考訳（メタデータ） (2025-12-05T17:51:10Z)
FLaTEC: Frequency-Disentangled Latent Triplanes for Efficient Compression of LiDAR Point Clouds [52.997038111673966]
FLaTECは、圧縮率の高いフルスキャンの圧縮を可能にする周波数対応圧縮モデルである。ボキセル化埋め込みを三面体表現に変換することで、空間性、計算コスト、ストレージ要件を低減する。提案手法は,最先端の速度歪み性能を実現し,標準コーデックのBDレートを78%,94%向上させる。
論文参考訳（メタデータ） (2025-11-25T08:37:49Z)
FAEDKV: Infinite-Window Fourier Transform for Unbiased KV Cache Compression [18.12657364501536]
FAEDKVは、トレーニング不要のKVキャッシュ圧縮フレームワークである。初期の情報と最近の情報の両方を保存している。 LongBenchベンチマークの実験では、FAEDKVは既存のメソッドよりも最大22%優れていた。
論文参考訳（メタデータ） (2025-07-26T18:20:25Z)
KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
KV-Distill: Nearly Lossless Learnable Context Compression for LLMs [37.0803484148612]
我々は、長いコンテキストKVキャッシュをはるかに短い表現に蒸留するTransformer圧縮フレームワークであるKV-Distillを紹介する。 KV-Distillは、事前訓練されたモデルに対するパラメータ効率の良い適応器として訓練することができる。ドメイン固有のコンテキストを微調整することで、下流のパフォーマンスを維持しながら、最大99%の長さを削減できる。
論文参考訳（メタデータ） (2025-03-13T13:15:28Z)
Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文参考訳（メタデータ） (2025-03-02T18:12:50Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Eigen Attention: Attention in Low-Rank Space for KV Cache Compression [9.080678336379528]
我々は,低ランク空間における注意操作を行うEigen Attentionを提案し,KVキャッシュメモリのオーバーヘッドを低減する。その結果,Eigen AttentionはKVキャッシュサイズを最大40%削減し,注目動作遅延を最大60%低減し,性能の低下を最小化できることがわかった。
論文参考訳（メタデータ） (2024-08-10T22:47:12Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。 LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文参考訳（メタデータ） (2024-06-08T01:35:11Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。