Fugu-MT 論文翻訳(概要): RAP: Runtime-Adaptive Pruning for LLM Inference

論文の概要: RAP: Runtime-Adaptive Pruning for LLM Inference

arxiv url: http://arxiv.org/abs/2505.17138v1
Date: Thu, 22 May 2025 06:12:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.600573
Title: RAP: Runtime-Adaptive Pruning for LLM Inference
Title（参考訳）: RAP: LLM推論のための実行時適応型プルーニング
Authors: Huanrong Liu, Chunlin Tian, Xuyang Wei, Jiaheng Dai, Qin Liu, Tianqi Wei, Qingbiao Li, Li Li,
Abstract要約: 我々は、強化学習(RL)によって駆動される弾力的な刈り取りフレームワークであるRAPを提案する。 RAPは、実際の実行におけるモデルパラメータとKV-cacheの進化率を追跡する。 RAPは最先端のベースラインよりも優れており、モデル重量とKVcacheを同時に検討するのは初めてである。
参考スコア（独自算出の注目度）: 7.793451450945128
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) excel at language understanding and generation, but their enormous computational and memory requirements hinder deployment. Compression offers a potential solution to mitigate these constraints. However, most existing methods rely on fixed heuristics and thus fail to adapt to runtime memory variations or heterogeneous KV-cache demands arising from diverse user requests. To address these limitations, we propose RAP, an elastic pruning framework driven by reinforcement learning (RL) that dynamically adjusts compression strategies in a runtime-aware manner. Specifically, RAP dynamically tracks the evolving ratio between model parameters and KV-cache across practical execution. Recognizing that FFNs house most parameters, whereas parameter -light attention layers dominate KV-cache formation, the RL agent retains only those components that maximize utility within the current memory budget, conditioned on instantaneous workload and device state. Extensive experiments results demonstrate that RAP outperforms state-of-the-art baselines, marking the first time to jointly consider model weights and KV-cache on the fly.
Abstract（参考訳）: 大きな言語モデル(LLM)は言語理解と生成に優れていますが、その膨大な計算とメモリの要求は、デプロイメントを妨げます。圧縮はこれらの制約を緩和する潜在的な解決策を提供する。しかし、既存のほとんどのメソッドは固定ヒューリスティックに頼っているため、多様なユーザ要求から生じるランタイムメモリのバリエーションやヘテロジニアスなKV-cache要求に適応できない。これらの制約に対処するため,強化学習(RL)によって駆動される弾力性のあるプルーニングフレームワークであるRAPを提案し,実行時対応で圧縮戦略を動的に調整する。具体的には、RAPはモデルパラメータとKV-cacheの実際の実行における進化率を動的に追跡する。 FFNがほとんどのパラメータを格納しているのに対して、パラメーター-ライトアテンション層がKV-cache生成を支配しているのに対して、RLエージェントは現在のメモリ予算内で有効性を最大化するコンポーネントのみを保持し、即時的なワークロードとデバイス状態で条件付けられている。実験の結果、RAPは最先端のベースラインよりも優れており、モデルウェイトとKVケーチを共同で検討するのは初めてであることがわかった。

関連論文リスト

Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文参考訳（メタデータ） (2025-06-13T15:35:54Z)
MLorc: Momentum Low-rank Compression for Large Language Model Adaptation [18.63642841688227]
我々は、モメンタム低ランク圧縮(MLorc)と呼ばれるメモリ効率の訓練パラダイムを提案する。勾配ではなく運動量を直接圧縮して再構成することにより、MLorcは重み更新行列に固定ランク制約を課すことを避ける。実証的には、MLorcは、他のメモリ効率のトレーニング方法、マッチ、さらにはフル微調整のパフォーマンスを一貫して上回っている。
論文参考訳（メタデータ） (2025-06-02T17:21:10Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文参考訳（メタデータ） (2025-03-02T18:12:50Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文参考訳（メタデータ） (2024-06-11T08:37:33Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。