論文の概要: ARA: Adaptive Rank Allocation for Efficient Large Language Model SVD Compression
- arxiv url: http://arxiv.org/abs/2510.19389v1
- Date: Wed, 22 Oct 2025 09:05:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.444075
- Title: ARA: Adaptive Rank Allocation for Efficient Large Language Model SVD Compression
- Title(参考訳): ARA: 効率的な大言語モデルSVD圧縮のための適応的なランクアロケーション
- Authors: Lin Xv, Jingsheng Gao, Xian Gao, Ting Liu, Yuzhuo Fu,
- Abstract要約: 大言語モデル(LLM)圧縮では、特異値分解(SVD)は広く研究され、採用されている低ランク分解技術である。
グローバル圧縮比制約の下では、異なる線形加群に対する適切なランクを決定することが重要な問題となる。
この問題に対処するための適応ランクアロケーション(ARA)手法を提案する。
- 参考スコア(独自算出の注目度): 23.58843227762227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of large language model (LLM) compression, singular value decomposition (SVD) is a widely studied and adopted low-rank decomposition technique. Since SVD operates exclusively on linear modules, and these modules in LLMs are separated by nonlinear components, SVD can only be applied independently to each linear module. Under a global compression ratio constraint, determining the appropriate rank for different linear modules becomes a critical problem. Existing approaches, such as heuristic algorithms and mask-based training, have made progress in addressing this challenge. However, these methods still suffer from several limitations: heuristic algorithms explore the solution space within restricted regions, while mask-based training struggles to efficiently capture the relationship between singular value spectra and trainable parameters. More importantly, current methods overlook the key property that the gain function is non-smooth at a compression ratio of 1, which often leads the training process to suboptimal local minima. To address these issues, we propose an Adaptive Rank Allocation (ARA) method. Specifically, (1) ARA introduces a dedicated mask design that enables efficient mapping and updating between retained ranks and trainable parameters; and (2) it employs an additional loss function to guide parameter selection toward globally optimal solutions. Experimental results demonstrate that ARA achieves state-of-the-art performance. On the LLaMA2-7B model with a 80\% compression ratio, ARA reduces perplexity on WikiText2 from 8.38 to 6.42 and improves average zero-shot task accuracy by 9.72 percentage points compared with uniform compression. These results highlight the effectiveness of our method for rank allocation in SVD-based LLM compression.
- Abstract(参考訳): 大規模言語モデル(LLM)圧縮の分野では、特異値分解(SVD)は広く研究され、採用されている低ランク分解技術である。
SVD は線型加群のみに作用し、LLM 内のこれらの加群は非線形成分によって分離されるので、SVD は各線形加群に対して独立にのみ適用できる。
グローバル圧縮比制約の下では、異なる線形加群に対する適切なランクを決定することが重要な問題となる。
ヒューリスティックアルゴリズムやマスクベースのトレーニングといった既存のアプローチは、この問題に対処する上で進歩している。
ヒューリスティックアルゴリズムは制限された領域内の解空間を探索し、マスクベースのトレーニングは特異値スペクトルとトレーニング可能なパラメータの関係を効率的に捉えるのに苦労する。
さらに重要なことに、現在の手法はゲイン関数が1の圧縮比で非滑らかであるというキー特性を見落としている。
これらの問題に対処するため,適応ランクアロケーション (ARA) 法を提案する。
具体的には, (1) ARAは, 保持位置とトレーニング可能なパラメータの効率的なマッピングと更新を可能にする専用マスク設計を導入し, (2) パラメータ選択をグローバルな最適解へ導くために, ロス関数を付加する。
実験の結果, ARAは最先端の性能を達成できた。
圧縮率80\%のLLaMA2-7Bモデルでは、ARAはWikiText2の難易度を8.38から6.42に削減し、一様圧縮と比較して平均ゼロショットタスク精度を9.72ポイント改善する。
これらの結果から,SVDを用いたLLM圧縮におけるランクアロケーションの有効性が示唆された。
関連論文リスト
- CALR: Corrective Adaptive Low-Rank Decomposition for Efficient Large Language Model Layer Compression [0.0]
大規模言語モデル(LLM)は、その膨大なサイズと計算要求のために、重大なデプロイメント上の課題を提示する。
本稿では,2成分圧縮手法である補正適応低ランク分解(CALR)を導入する。
CALR はパラメータ数を 26.93% から 51.77% に削減でき、元のモデルの性能の59.45% から 90.42% に維持できることを示した。
論文 参考訳(メタデータ) (2025-08-21T13:16:02Z) - Adacc: An Adaptive Framework Unifying Compression and Activation Recomputation for LLM Training [40.371351103295765]
大きな言語モデル(LLM)のトレーニングは、GPUメモリの制限によって制限されることが多い。
Adaccはアクティベーション再計算とデータ圧縮を統合する最初の適応型メモリ最適化フレームワークである。
Adaccは、最先端のフレームワークと比較して、トレーニングのスループットを1.01倍から1.37倍改善している。
論文 参考訳(メタデータ) (2025-08-01T17:39:25Z) - FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。
当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文 参考訳(メタデータ) (2025-05-23T14:37:00Z) - OSoRA: Output-Dimension and Singular-Value Initialized Low-Rank Adaptation [9.048461365342204]
大規模言語モデル(LLM)のための新しいPEFT法であるOSoRAを提案する。
OSoRAは、微調整中にトレーニング可能なパラメータの数を最小化することで、計算リソースの要求を大幅に削減する。
数学的推論、常識推論、その他のベンチマークの総合的な評価は、OSoRAが最先端の手法と同等または優れた性能を達成していることを示している。
論文 参考訳(メタデータ) (2025-05-20T13:34:06Z) - AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [75.1196637934987]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。
既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。
適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:34:37Z) - SVFT: Parameter-Efficient Fine-Tuning with Singular Vectors [80.6043267994434]
既存の手法と根本的に異なる単純なアプローチであるSVFTを提案する。
SVFTは特異ベクトルの外積のスパース結合として(W)を更新し、これらのスパース結合の係数(スケール)のみを訓練する。
言語とビジョンベンチマークの実験では、SVFTは完全な微調整性能の96%を回復し、パラメータの0.006から0.25%しかトレーニングしていない。
論文 参考訳(メタデータ) (2024-05-30T01:27:43Z) - Numerical Optimizations for Weighted Low-rank Estimation on Language
Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-02T00:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。