論文の概要: The Unseen Frontier: Pushing the Limits of LLM Sparsity with Surrogate-Free ADMM
- arxiv url: http://arxiv.org/abs/2510.01650v1
- Date: Thu, 02 Oct 2025 04:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.981786
- Title: The Unseen Frontier: Pushing the Limits of LLM Sparsity with Surrogate-Free ADMM
- Title(参考訳): 未知のフロンティア:サロゲートフリーADMMによるLDMスパシティの限界を押し上げる
- Authors: Kwanhee Lee, Hyeondo Jang, Dongyeop Lee, Dan Alistarh, Namhoon Lee,
- Abstract要約: ニューラルネットワークプルーニングは、大規模言語モデルの過剰な計算およびメモリ要求を軽減するための有望な手法である。
我々は,高モデル忠実度を維持しつつ,極端にスペーサレベルを最大90%まで達成する,$textttElsa$という原理的かつ効果的な方法を提案する。
- 参考スコア(独自算出の注目度): 33.926500272577165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network pruning is a promising technique to mitigate the excessive computational and memory requirements of large language models (LLMs). Despite its promise, however, progress in this area has diminished, as conventional methods are seemingly unable to surpass moderate sparsity levels (50-60%) without severely degrading model accuracy. This work breaks through the current impasse, presenting a principled and effective method called $\texttt{Elsa}$, which achieves extreme sparsity levels of up to 90% while retaining high model fidelity. This is done by identifying several limitations in current practice, all of which can be traced back to their reliance on a surrogate objective formulation. $\texttt{Elsa}$ tackles this issue directly and effectively via standard and well-established constrained optimization techniques based on ADMM. Our extensive experiments across a wide range of models and scales show that $\texttt{Elsa}$ achieves substantial improvements over existing methods; e.g., it achieves 7.8$\times$ less perplexity than the best existing method on LLaMA-2-7B at 90% sparsity. Furthermore, we present $\texttt{Elsa}_{\text{-L}}$, a quantized variant that scales to extremely large models (27B), and establish its theoretical convergence guarantees. These results highlight meaningful progress in advancing the frontier of LLM sparsity, while promising that significant opportunities for further advancement may remain in directions that have so far attracted limited exploration.
- Abstract(参考訳): ニューラルネットワークプルーニングは、大規模言語モデル(LLM)の過剰な計算およびメモリ要求を軽減するための有望な手法である。
しかし, 従来の手法では, モデル精度を著しく低下させることなく, 適度なスパーシリティレベル(50~60%)を達成できないため, この分野の進歩は鈍化している。
この研究は現在の不合理さを突破し、$\texttt{Elsa}$と呼ばれる原則的で効果的な方法を提示し、高いモデルの忠実さを維持しながら、極端なスパーシリティレベルを最大90%達成する。
これは、現在の実践におけるいくつかの制限を特定することで行われ、これらは全て、代理的な客観的な定式化への依存に遡ることができる。
$\texttt{Elsa}$はADMMに基づいた標準化された制約付き最適化手法を通じて、この問題を直接かつ効果的に解決する。
例えば、LLaMA-2-7Bの最良の既存手法よりも90%の間隔で7.8$\times$のパープレキシティを実現する。
さらに、非常に大きなモデル(27B)にスケールする量子化された変種である$\textt{Elsa}_{\text{-L}}$を示し、理論収束を保証する。
これらの結果は、LLM空間のフロンティアを前進させる上で有意義な進歩を浮き彫りにし、さらに前進するための重要な機会が、これまで限られた探査に惹かれてきた方向にとどまる可能性があることを約束している。
関連論文リスト
- Predictable Scale: Part II, Farseer: A Refined Scaling Law in Large Language Models [62.3458061002951]
本稿では,新たなスケール法であるFarseerを紹介した。
モデル損失曲面 $L(N,D)$ を体系的に構築することにより、Farseer は以前の法則よりも経験的データに非常によく適合する。
我々の手法は正確で頑健で、非常に一般化可能な予測をもたらし、優れた外挿能力を示す。
論文 参考訳(メタデータ) (2025-06-12T17:59:23Z) - WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference [44.538579135121466]
WINA(Weight Informed Neuron Activation)は、新しい、シンプルで、トレーニング不要なスパースアクティベーションフレームワークである。
WINAは,従来の手法よりも厳密な理論的保証を持つ最適近似誤差境界が得られることを示す。
また、最先端の手法(例えばTEAL)を同等の間隔で平均性能で2.94%まで上回っている。
論文 参考訳(メタデータ) (2025-05-26T02:37:32Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Training-Free Activation Sparsity in Large Language Models [32.37595108771431]
アクティベーションのスパーシリティは、大きな言語モデルで実用的な推論スピードアップを可能にする。
既存の手法は普及を妨げる限界に直面している。
本稿では,モデル全体の隠れ状態に対して,等級に基づくアクティベーション間隔を適用したトレーニング不要なTEALについて述べる。
論文 参考訳(メタデータ) (2024-08-26T23:30:15Z) - Controlled Sparsity via Constrained Optimization or: How I Learned to
Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。
スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。
本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文 参考訳(メタデータ) (2022-08-08T21:24:20Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。