論文の概要: Low-Rank Compression of Language Models via Differentiable Rank Selection
- arxiv url: http://arxiv.org/abs/2512.13733v1
- Date: Sun, 14 Dec 2025 07:20:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.409178
- Title: Low-Rank Compression of Language Models via Differentiable Rank Selection
- Title(参考訳): 階数選択による低ランク言語モデルの圧縮
- Authors: Sidhant Sundrani, Francesco Tudisco, Pasquale Minervini,
- Abstract要約: 本研究では,勾配に基づく学習手法であるLearning to Low-Rank Compress (LLRC)を提案する。
提案手法は, 圧縮後微調整を必要とせず, 様々な圧縮速度で, 共通センス推論やオープンドメイン質問応答タスクにおいて, 競合するランク付け手法よりも優れる。
- 参考スコア(独自算出の注目度): 22.99526059495007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approaches for compressing large-language models using low-rank decomposition have made strides, particularly with the introduction of activation and loss-aware SVD, which improves the trade-off between decomposition rank and downstream task performance. Despite these advancements, a persistent challenge remains--selecting the optimal ranks for each layer to jointly optimise compression rate and downstream task accuracy. Current methods either rely on heuristics that can yield sub-optimal results due to their limited discrete search space or are gradient-based but are not as performant as heuristic approaches without post-compression fine-tuning. To address these issues, we propose Learning to Low-Rank Compress (LLRC), a gradient-based approach which directly learns the weights of masks that select singular values in a fine-tuning-free setting. Using a calibration dataset, we train only the mask weights to select fewer and fewer singular values while minimising the divergence of intermediate activations from the original model. Our approach outperforms competing ranking selection methods that similarly require no post-compression fine-tuning across various compression rates on common-sense reasoning and open-domain question-answering tasks. For instance, with a compression rate of 20% on Llama-2-13B, LLRC outperforms the competitive Sensitivity-based Truncation Rank Searching (STRS) on MMLU, BoolQ, and OpenbookQA by 12%, 3.5%, and 4.4%, respectively. Compared to other compression techniques, our approach consistently outperforms fine-tuning-free variants of SVD-LLM and LLM-Pruner across datasets and compression rates. Our fine-tuning-free approach also performs competitively with the fine-tuning variant of LLM-Pruner.
- Abstract(参考訳): 低ランク分解を用いた大規模言語モデルの圧縮へのアプローチは、特にアクティベーションと損失認識SVDの導入により、分解ランクとダウンストリームタスクパフォーマンスのトレードオフが改善されている。
これらの進歩にもかかわらず、持続的な課題は残っており、各レイヤが圧縮率と下流タスクの精度を共同で最適化する最適なランクを選択することである。
現在の手法は、離散的な探索空間が限られているため最適以下の結果が得られるヒューリスティックスに依存するか、あるいは勾配に基づくが、圧縮後の微調整なしではヒューリスティックなアプローチほどパフォーマンスは良くない。
これらの問題に対処するため,我々は勾配に基づくアプローチであるLearning to Low-Rank Compress (LLRC)を提案する。
キャリブレーションデータセットを用いて、マスク重量のみをトレーニングし、元のモデルから中間活性化の発散を最小限に抑えながら、特異値が少なく、少ないものを選択する。
提案手法は, 圧縮後微調整を必要とせず, 様々な圧縮速度で, 共通センス推論やオープンドメイン質問応答タスクにおいて, 競合するランク付け手法よりも優れる。
例えば、Llama-2-13Bで20%の圧縮率を持つLLRCは、MMLU、BoolQ、OpenbookQAでそれぞれ12%、3.5%、および4.4%の競争感度に基づくトランケーションランク検索(STRS)を上回っている。
他の圧縮技術と比較して, SVD-LLM と LLM-Pruner の微調整不要な変種をデータセットや圧縮速度で一貫して上回っている。
LLM-Prunerの微調整版とも競合する。
関連論文リスト
- Greedy Low-Rank Gradient Compression for Distributed Learning with Convergence Guarantees [10.828702910680692]
本稿では,厳密な収束保証付き分散学習のための第1次Greedy Low-Rank圧縮アルゴリズムを提案する。
我々は、GreedyLoreがMSGDやAdamのような標準の下で$mathcalO(sigma/sqrtNT + 1/T)$の収束率を達成することを証明した。
論文 参考訳(メタデータ) (2025-07-11T17:46:12Z) - MGAA: Multi-Granular Adaptive Allocation fof Low-Rank Compression of LLMs [9.244526043014098]
MGAA (Multi-Granular Adaptive Allocation) 法は, 圧縮過程においてタスク固有の評価を伴わずに, サブレイヤ内およびサブレイヤ間のパラメータを適応的に割り当てることができる。
複数のLLMのバックボーンモデルとベンチマークデータセットによるMGAAの総合評価は、その優れた性能を示している。
論文 参考訳(メタデータ) (2025-07-04T04:54:01Z) - Choose Your Model Size: Any Compression of Large Language Models Without Re-Computation [10.376875638696504]
本研究は, 圧縮性能トレードオフを決定するアルゴリズム手法であるACIP (Any Compression via Iterative Pruning) を提案する。
線形層をSVDで再パラメータ化し,その特異値をスペーサ性誘導ペナルティで反復的にプルーする。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。