論文の概要: Leveraging KV Similarity for Online Structured Pruning in LLMs
- arxiv url: http://arxiv.org/abs/2512.07090v1
- Date: Mon, 08 Dec 2025 01:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.674695
- Title: Leveraging KV Similarity for Online Structured Pruning in LLMs
- Title(参考訳): LLMにおけるオンライン構造化プルーニングにおけるKV類似性の活用
- Authors: Jungmin Lee, Gwangeun Byeon, Yulhwa Kim, Seokin Hong,
- Abstract要約: プルーニングは、大規模言語モデル(LLM)推論を加速するための有望な方向として現れている。
我々は、キャリブレーションデータなしで推論中にプルーニング決定を直接行う軽量なオンライン構造化プルーニング技術であるToken Filteringを紹介した。
LLaMA-2 (7B/13B)、LLaMA-3 (8B)、Mistral (7B) の試験では、Token Filtering が以前の構造化プルーニング法より一貫して優れていたことが示されている。
- 参考スコア(独自算出の注目度): 7.067238287331514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pruning has emerged as a promising direction for accelerating large language model (LLM) inference, yet existing approaches often suffer from instability because they rely on offline calibration data that may not generalize across inputs. In this work, we introduce Token Filtering, a lightweight online structured pruning technique that makes pruning decisions directly during inference without any calibration data. The key idea is to measure token redundancy via joint key-value similarity and skip redundant attention computations, thereby reducing inference cost while preserving critical information. To further enhance stability, we design a variance-aware fusion strategy that adaptively weights key and value similarity across heads, ensuring that informative tokens are retained even under high pruning ratios. This design introduces no additional memory overhead and provides a more reliable criterion for token importance. Extensive experiments on LLaMA-2 (7B/13B), LLaMA-3 (8B), and Mistral (7B) demonstrate that Token Filtering consistently outperforms prior structured pruning methods, preserving accuracy on commonsense reasoning benchmarks and maintaining strong performance on challenging tasks such as MMLU, even with 50% pruning.
- Abstract(参考訳): プルーニングは、大きな言語モデル(LLM)推論を加速するための有望な方向として現れてきたが、既存のアプローチは、入力をまたいで一般化しないオフラインキャリブレーションデータに依存するため、しばしば不安定に陥る。
本研究では,キャリブレーションデータを使わずに,推論中にプルーニング決定を直接行う軽量オンライン構造化プルーニング技術であるToken Filteringを紹介する。
鍵となる考え方は、ジョイントキー値の類似性を通じてトークンの冗長性を計測し、冗長な注意計算を省略し、重要な情報を保持しながら推論コストを削減することである。
安定性を高めるため,高プルーニング比下においても情報トークンが保持されることを保証し,キーと値の類似性を適応的に重み付けする分散対応融合戦略を設計する。
この設計ではメモリオーバーヘッドが増加せず、トークンの重要性をより信頼性の高い基準を提供する。
LLaMA-2 (7B/13B)、LLaMA-3 (8B)、Mistral (7B) の広範囲にわたる実験により、Token Filtering は従来の構造化プルーニング手法を一貫して上回り、コモンセンス推論ベンチマークの精度を保ち、MMLUのような課題タスクにおいて50%プルーニングしても高い性能を維持することを示した。
関連論文リスト
- Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - How Breakable Is Privacy: Probing and Resisting Model Inversion Attacks in Collaborative Inference [13.453033795109155]
協調推論は、中間機能をクラウドモデルに伝達することでエッジデバイスの計算効率を向上させる。
モデル逆攻撃(MIA)の難しさを評価するための確立された基準はない。
本稿では、CIにおけるMIAの難易度を評価するための最初の理論的基準を提案し、相互情報、エントロピー、有効情報量などを重要な要因として同定する。
論文 参考訳(メタデータ) (2025-01-01T13:00:01Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - LLM-BIP: Structured Pruning for Large Language Models with Block-Wise Forward Importance Propagation [0.0]
ブロック単位の重要スコアの伝搬に基づくより正確なプルーニング指標を提案する。
我々は,LLaMA-7B,Vicuna-7B,LLaMA-13Bを用いて,共通ゼロショットタスクを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-12-09T11:57:16Z) - Reliability-Adaptive Consistency Regularization for Weakly-Supervised
Point Cloud Segmentation [80.07161039753043]
極端に限られたラベルを持つ弱教師付きポイントクラウドセグメンテーションは、高額な注釈付き3Dポイントの収集コストを軽減するのが望ましい。
本稿では、弱教師付き学習において一般的に用いられる一貫性の正則化を、複数のデータ固有の拡張を伴うポイントクラウドに適用することを検討する。
疑似ラベルの信頼性を評価するために,予測信頼性とモデル不確実性を両立させる新しい信頼性適応整合ネットワーク(RAC-Net)を提案する。
論文 参考訳(メタデータ) (2023-03-09T10:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。