論文の概要: Low-Rank Compression of Language Models via Differentiable Rank Selection
- arxiv url: http://arxiv.org/abs/2512.13733v1
- Date: Sun, 14 Dec 2025 07:20:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.409178
- Title: Low-Rank Compression of Language Models via Differentiable Rank Selection
- Title(参考訳): 階数選択による低ランク言語モデルの圧縮
- Authors: Sidhant Sundrani, Francesco Tudisco, Pasquale Minervini,
- Abstract要約: 本研究では,勾配に基づく学習手法であるLearning to Low-Rank Compress (LLRC)を提案する。
提案手法は, 圧縮後微調整を必要とせず, 様々な圧縮速度で, 共通センス推論やオープンドメイン質問応答タスクにおいて, 競合するランク付け手法よりも優れる。
- 参考スコア(独自算出の注目度): 22.99526059495007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approaches for compressing large-language models using low-rank decomposition have made strides, particularly with the introduction of activation and loss-aware SVD, which improves the trade-off between decomposition rank and downstream task performance. Despite these advancements, a persistent challenge remains--selecting the optimal ranks for each layer to jointly optimise compression rate and downstream task accuracy. Current methods either rely on heuristics that can yield sub-optimal results due to their limited discrete search space or are gradient-based but are not as performant as heuristic approaches without post-compression fine-tuning. To address these issues, we propose Learning to Low-Rank Compress (LLRC), a gradient-based approach which directly learns the weights of masks that select singular values in a fine-tuning-free setting. Using a calibration dataset, we train only the mask weights to select fewer and fewer singular values while minimising the divergence of intermediate activations from the original model. Our approach outperforms competing ranking selection methods that similarly require no post-compression fine-tuning across various compression rates on common-sense reasoning and open-domain question-answering tasks. For instance, with a compression rate of 20% on Llama-2-13B, LLRC outperforms the competitive Sensitivity-based Truncation Rank Searching (STRS) on MMLU, BoolQ, and OpenbookQA by 12%, 3.5%, and 4.4%, respectively. Compared to other compression techniques, our approach consistently outperforms fine-tuning-free variants of SVD-LLM and LLM-Pruner across datasets and compression rates. Our fine-tuning-free approach also performs competitively with the fine-tuning variant of LLM-Pruner.
- Abstract(参考訳): 低ランク分解を用いた大規模言語モデルの圧縮へのアプローチは、特にアクティベーションと損失認識SVDの導入により、分解ランクとダウンストリームタスクパフォーマンスのトレードオフが改善されている。
これらの進歩にもかかわらず、持続的な課題は残っており、各レイヤが圧縮率と下流タスクの精度を共同で最適化する最適なランクを選択することである。
現在の手法は、離散的な探索空間が限られているため最適以下の結果が得られるヒューリスティックスに依存するか、あるいは勾配に基づくが、圧縮後の微調整なしではヒューリスティックなアプローチほどパフォーマンスは良くない。
これらの問題に対処するため,我々は勾配に基づくアプローチであるLearning to Low-Rank Compress (LLRC)を提案する。
キャリブレーションデータセットを用いて、マスク重量のみをトレーニングし、元のモデルから中間活性化の発散を最小限に抑えながら、特異値が少なく、少ないものを選択する。
提案手法は, 圧縮後微調整を必要とせず, 様々な圧縮速度で, 共通センス推論やオープンドメイン質問応答タスクにおいて, 競合するランク付け手法よりも優れる。
例えば、Llama-2-13Bで20%の圧縮率を持つLLRCは、MMLU、BoolQ、OpenbookQAでそれぞれ12%、3.5%、および4.4%の競争感度に基づくトランケーションランク検索(STRS)を上回っている。
他の圧縮技術と比較して, SVD-LLM と LLM-Pruner の微調整不要な変種をデータセットや圧縮速度で一貫して上回っている。
LLM-Prunerの微調整版とも競合する。
関連論文リスト
- Zero Sum SVD: Balancing Loss Sensitivity for Low Rank LLM Compression [11.908793753919745]
白色座標における特異成分選択を行うポストトレーニング法であるtextbfZero Sum SVD (textbfZS-SVD) を提案する。
textbfZS-SVDは、累積的な損失変化を0付近に保持する textbfzero sum ルールで、モデル全体のコンポーネントをプルーする。
実験では、様々なベンチマークと圧縮比で一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-02T21:51:01Z) - SkipCat: Rank-Maximized Low-Rank Compression of Large Language Models via Shared Projection and Block Skipping [6.789200833454491]
大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを実現している。
低ランク圧縮は、計算コストとメモリコストの両方を削減するため、この問題に対処するための有望なアプローチである。
また,SkipCatを提案する。SkipCatは低ランクの圧縮フレームワークで,高いランクの使用が可能で,同じ圧縮率を実現することができる。
論文 参考訳(メタデータ) (2025-12-15T16:25:55Z) - Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - Greedy Low-Rank Gradient Compression for Distributed Learning with Convergence Guarantees [10.828702910680692]
本稿では,厳密な収束保証付き分散学習のための第1次Greedy Low-Rank圧縮アルゴリズムを提案する。
我々は、GreedyLoreがMSGDやAdamのような標準の下で$mathcalO(sigma/sqrtNT + 1/T)$の収束率を達成することを証明した。
論文 参考訳(メタデータ) (2025-07-11T17:46:12Z) - MGAA: Multi-Granular Adaptive Allocation fof Low-Rank Compression of LLMs [9.244526043014098]
MGAA (Multi-Granular Adaptive Allocation) 法は, 圧縮過程においてタスク固有の評価を伴わずに, サブレイヤ内およびサブレイヤ間のパラメータを適応的に割り当てることができる。
複数のLLMのバックボーンモデルとベンチマークデータセットによるMGAAの総合評価は、その優れた性能を示している。
論文 参考訳(メタデータ) (2025-07-04T04:54:01Z) - Choose Your Model Size: Any Compression of Large Language Models Without Re-Computation [10.376875638696504]
本研究は, 圧縮性能トレードオフを決定するアルゴリズム手法であるACIP (Any Compression via Iterative Pruning) を提案する。
線形層をSVDで再パラメータ化し,その特異値をスペーサ性誘導ペナルティで反復的にプルーする。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - GRASP: Replace Redundant Layers with Adaptive Singular Parameters for Efficient Model Compression [26.51079570548107]
本稿では,新しい圧縮フレームワークGRASP(Gradient-based Retention of Adaptive Singular Parameters)を提案する。
冗長なレイヤを最小限のパラメータセットで置き換えることによって、GRASPは、最小限のオーバーヘッドで強力なパフォーマンスを維持しながら、効率的な圧縮を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:22:21Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。