論文の概要: SkipCat: Rank-Maximized Low-Rank Compression of Large Language Models via Shared Projection and Block Skipping
- arxiv url: http://arxiv.org/abs/2512.13494v1
- Date: Mon, 15 Dec 2025 16:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.748404
- Title: SkipCat: Rank-Maximized Low-Rank Compression of Large Language Models via Shared Projection and Block Skipping
- Title(参考訳): SkipCat: 共有投影とブロックスキッピングによる大規模言語モデルのランク最大化低ランク圧縮
- Authors: Yu-Chen Lu, Sheng-Feng Yu, Hui-Hsien Weng, Pei-Shuo Wang, Yu-Fang Hu, Liang Hung-Chun, Hung-Yueh Chiang, Kai-Chiang Wu,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを実現している。
低ランク圧縮は、計算コストとメモリコストの両方を削減するため、この問題に対処するための有望なアプローチである。
また,SkipCatを提案する。SkipCatは低ランクの圧縮フレームワークで,高いランクの使用が可能で,同じ圧縮率を実現することができる。
- 参考スコア(独自算出の注目度): 6.789200833454491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLM) have achieved remarkable performance across a wide range of tasks. However, their substantial parameter sizes pose significant challenges for deployment on edge devices with limited computational and memory resources. Low-rank compression is a promising approach to address this issue, as it reduces both computational and memory costs, making LLM more suitable for resource-constrained environments. Nonetheless, naïve low-rank compression methods require a significant reduction in the retained rank to achieve meaningful memory and computation savings. For a low-rank model, the ranks need to be reduced by more than half to yield efficiency gains. Such aggressive truncation, however, typically results in substantial performance degradation. To address this trade-off, we propose SkipCat, a novel low-rank compression framework that enables the use of higher ranks while achieving the same compression rates. First, we introduce an intra-layer shared low-rank projection method, where multiple matrices that share the same input use a common projection. This reduces redundancy and improves compression efficiency. Second, we propose a block skipping technique that omits computations and memory transfers for selected sub-blocks within the low-rank decomposition. These two techniques jointly enable our compressed model to retain more effective ranks under the same compression budget. Experimental results show that, without any additional fine-tuning, our method outperforms previous low-rank compression approaches by 7% accuracy improvement on zero-shot tasks under the same compression rate. These results highlight the effectiveness of our rank-maximized compression strategy in preserving model performance under tight resource constraints.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを実現している。
しかし、パラメータのかなりのサイズは、計算資源とメモリ資源が限られているエッジデバイスに展開する上で大きな課題となる。
低ランク圧縮は、計算コストとメモリコストを削減し、LLMを資源制約のある環境に適合させるため、この問題に対処するための有望なアプローチである。
それでも、低ランク圧縮法では、意味のあるメモリと計算の節約を達成するために、保持されたランクを大幅に削減する必要がある。
低ランクモデルでは、効率を上げるためにランクを半分以上下げる必要がある。
しかし、このような攻撃的な切り離しは、典型的にはパフォーマンスを著しく低下させる。
このトレードオフに対処するため、我々はSkipCatを提案する。SkipCatは、同じ圧縮率を達成しつつ高いランクの使用を可能にする新しい低ランク圧縮フレームワークである。
まず、同じ入力を共有する複数の行列が共通投影を使用する、層内共有低ランク投影法を提案する。
これにより冗長性が低減され、圧縮効率が向上する。
第二に、低ランク分解における選択されたサブブロックに対する計算とメモリ転送を省略するブロックスキップ手法を提案する。
これらの2つの手法により、圧縮モデルは同じ圧縮予算の下でより効果的なランクを維持することができる。
実験結果より, 圧縮速度がゼロショットタスクに対して7%向上し, 従来の低ランク圧縮手法よりも精度が向上した。
これらの結果は,厳密な資源制約下でのモデル性能の保存におけるランク最大化圧縮戦略の有効性を浮き彫りにした。
関連論文リスト
- Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - MGAA: Multi-Granular Adaptive Allocation fof Low-Rank Compression of LLMs [9.244526043014098]
MGAA (Multi-Granular Adaptive Allocation) 法は, 圧縮過程においてタスク固有の評価を伴わずに, サブレイヤ内およびサブレイヤ間のパラメータを適応的に割り当てることができる。
複数のLLMのバックボーンモデルとベンチマークデータセットによるMGAAの総合評価は、その優れた性能を示している。
論文 参考訳(メタデータ) (2025-07-04T04:54:01Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Choose Your Model Size: Any Compression of Large Language Models Without Re-Computation [10.376875638696504]
本研究は, 圧縮性能トレードオフを決定するアルゴリズム手法であるACIP (Any Compression via Iterative Pruning) を提案する。
線形層をSVDで再パラメータ化し,その特異値をスペーサ性誘導ペナルティで反復的にプルーする。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - A Highly Effective Low-Rank Compression of Deep Neural Networks with
Modified Beam-Search and Modified Stable Rank [3.0938904602244355]
自動ランク選択にビームサーチを改良し,圧縮フレンドリーなトレーニングに安定度を改良した低ランク圧縮法を提案する。
BSRの精度と圧縮比トレードオフ曲線のパフォーマンスは、これまで知られていた低ランク圧縮法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2021-11-30T07:36:23Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。