論文の概要: 3BASiL: An Algorithmic Framework for Sparse plus Low-Rank Compression of LLMs
- arxiv url: http://arxiv.org/abs/2603.01376v1
- Date: Mon, 02 Mar 2026 02:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.653499
- Title: 3BASiL: An Algorithmic Framework for Sparse plus Low-Rank Compression of LLMs
- Title(参考訳): 3BASiL: LLMのスパースと低ランク圧縮のためのアルゴリズムフレームワーク
- Authors: Mehdi Makni, Xiang Meng, Rahul Mazumder,
- Abstract要約: 3BASiL-TMは大規模言語モデルの分解に$(mathbfS + mathbfLR)$の効率的なワンショットポストトレーニング手法である。
実験の結果, 3BASiL-TM は LLaMA-8B モデルに対して WikiText2 のパープレキシティギャップを (2:4 Sparse + 64 LR) 構成で30% 以上低減することがわかった。
提案手法は,SOTA $(mathbfS + mathbfLR)と比較してA100 GPU上で2.5倍高速な圧縮実行を実現する。
- 参考スコア(独自算出の注目度): 20.28912929805946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse plus Low-Rank $(\mathbf{S} + \mathbf{LR})$ decomposition of Large Language Models (LLMs) has emerged as a promising direction in model compression, aiming to decompose pre-trained model weights into a sum of sparse and low-rank matrices $(\mathbf{W} \approx \mathbf{S} + \mathbf{LR})$. Despite recent progress, existing methods often suffer from substantial performance degradation compared to dense models. In this work, we introduce 3BASiL-TM, an efficient one-shot post-training method for $(\mathbf{S} + \mathbf{LR})$ decomposition of LLMs that addresses this gap. Our approach first introduces a novel 3-Block Alternating Direction Method of Multipliers (ADMM) method, termed 3BASiL, to minimize the layer-wise reconstruction error with convergence guarantees. We then design an efficient transformer-matching (TM) refinement step that jointly optimizes the sparse and low-rank components across transformer layers. This step minimizes a novel memory-efficient loss that aligns outputs at the transformer level. Notably, the TM procedure is universal as it can enhance any $(\mathbf{S} + \mathbf{LR})$ decomposition, including pure sparsity. Our numerical experiments show that 3BASiL-TM reduces the WikiText2 perplexity gap relative to dense LLaMA-8B model by over 30% under a (2:4 Sparse + 64 LR) configuration, compared to prior methods. Moreover, our method achieves over 2.5x faster compression runtime on an A100 GPU compared to SOTA $(\mathbf{S} + \mathbf{LR})$ method. Our code is available at https://github.com/mazumder-lab/3BASiL.
- Abstract(参考訳): Sparse + Low-Rank $(\mathbf{S} + \mathbf{LR})$ decomposition of Large Language Models (LLMs)はモデル圧縮において有望な方向として現れ、事前学習されたモデルの重みをスパース行列とローランク行列の和$(\mathbf{W} \approx \mathbf{S} + \mathbf{LR})$に分解することを目的としている。
近年の進歩にもかかわらず、既存の手法は高密度モデルに比べて大きな性能劣化に悩まされることが多い。
本研究では,このギャップに対処するLLMの分解を$(\mathbf{S} + \mathbf{LR})$に対して,効率的なワンショットポストトレーニング法である3BASiL-TMを導入する。
提案手法はまず,3BASiLと呼ばれる新しい3ブロック交互方向法(ADMM)を導入し,収束保証による階層的再構成誤差を最小化する。
次に、トランス層をまたいだスパースおよびローランクコンポーネントを協調的に最適化する効率的なトランスフォーマーマッチング(TM)精細化ステップを設計する。
このステップは、トランスレベルで出力を整列させる、新しいメモリ効率の損失を最小限にする。
特に、TMプロシージャは、純粋なスパーシリティを含む任意の$(\mathbf{S} + \mathbf{LR})$分解を拡張できるので普遍的である。
数値実験により, 3BASiL-TMは, LLaMA-8B モデルと比較して WikiText2 のパープレキシティギャップを, (2:4 Sparse + 64 LR) 構成で30%以上低減することがわかった。
さらに,本手法は,SOTA $(\mathbf{S} + \mathbf{LR})$法と比較して,A100 GPU上で2.5倍高速な圧縮実行を実現する。
私たちのコードはhttps://github.com/mazumder-lab/3BASiL.comで利用可能です。
関連論文リスト
- Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - StelLA: Subspace Learning in Low-rank Adaptation using Stiefel Manifold [51.93627542334909]
低ランク適応(LoRA)は大規模事前訓練モデルのパラメータ効率向上手法として広く採用されている。
3要素分解$U!SVtop$を使用するLoRAの幾何学的拡張を提案する。
論文 参考訳(メタデータ) (2025-10-02T11:59:13Z) - A3 : an Analytical Low-Rank Approximation Framework for Attention [14.649496050074735]
トレーニング後の低ランク近似フレームワークである$tt Attt 3$を提案する。
tt Attt 3$ は SoTA よりも優れたパフォーマンスを維持していることを示す。
また、KVキャッシュ圧縮、量子化、性能向上のための混合ランク代入など、$tt Att 3$の汎用性も示す。
論文 参考訳(メタデータ) (2025-05-19T10:29:32Z) - Compressing Large Language Models using Low Rank and Low Precision Decomposition [46.30918750022739]
この研究は、新しい訓練後のLLM圧縮アルゴリズムである$rm CALDERA$を導入している。
重量行列 $mathbfW$ の固有の低ランク構造を利用して、低ランクで低精度な分解によってそれを近似する。
その結果、LlaMa-$2$$7$B/$13B$/$70$BとLlaMa-$3$B $rm CALDERA$は、既存のトレーニング後の圧縮技術より優れていることが示された。
論文 参考訳(メタデータ) (2024-05-29T08:42:30Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Oblivious Stochastic Composite Optimization [47.48197617884748]
我々のアルゴリズムは問題のパラメータに関する事前の知識なしで収束することを示す。
3つのアルゴリズムは全て、実現可能な集合の直径、リプシッツ定数、あるいは目的関数の滑らかさについて事前の知識なしに機能する。
我々は,フレームワークを比較的大規模に拡張し,大規模半確定プログラム上での手法の効率性と堅牢性を実証する。
論文 参考訳(メタデータ) (2023-06-30T08:34:29Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Overcoming the Long Horizon Barrier for Sample-Efficient Reinforcement
Learning with Latent Low-Rank Structure [9.759209713196718]
我々は、対応する最適$Q*$関数が低ランクであるMDPのクラスを考える。
より強い低階構造仮定の下では、生成モデル(LR-MCPI)と低階経験値イテレーション(LR-EVI)が、ランクに対して$tildeOleft((|S|+|A|)mathrmpoly(d,H)/epsilon2right)$の所望のサンプル複雑性を実現することが示されている。
論文 参考訳(メタデータ) (2022-06-07T20:39:51Z) - On Submodular Contextual Bandits [92.45432756301231]
作用が基底集合の部分集合であり、平均報酬が未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。
Inverse Gap Weighting 戦略により,提案アルゴリズムは推定関数の局所的最適度を効率よくランダム化することを示す。
論文 参考訳(メタデータ) (2021-12-03T21:42:33Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。