論文の概要: OPTIMA: Optimal One-shot Pruning for LLMs via Quadratic Programming Reconstruction
- arxiv url: http://arxiv.org/abs/2512.13886v1
- Date: Mon, 15 Dec 2025 20:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.486212
- Title: OPTIMA: Optimal One-shot Pruning for LLMs via Quadratic Programming Reconstruction
- Title(参考訳): OPTIMA: 擬似プログラミング再構成によるLLMのための最適ワンショットプルーニング
- Authors: Mohammad Mozaffari, Samuel Kushnir, Maryam Mehri Dehnavi, Amir Yazdanbakhsh,
- Abstract要約: トレーニング後のモデルプルーニングは有望なソリューションだが、ゼロウェイトは高速だが精度は劣化しているというトレードオフに直面している。
SparseGPTのようなワンショット方式は、効率的で近似的な重み更新を適用することで、最適化の実践的なトレードオフを提供する。
OPTIMAは,精度とスケーラビリティのバランスを保ちながら,実践的なワンショット・ポストトレーニング・プルーニング手法である。
- 参考スコア(独自算出の注目度): 12.653025902977001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training model pruning is a promising solution, yet it faces a trade-off: simple heuristics that zero weights are fast but degrade accuracy, while principled joint optimization methods recover accuracy but are computationally infeasible at modern scale. One-shot methods such as SparseGPT offer a practical trade-off in optimality by applying efficient, approximate heuristic weight updates. To close this gap, we introduce OPTIMA, a practical one-shot post-training pruning method that balances accuracy and scalability. OPTIMA casts layer-wise weight reconstruction after mask selection as independent, row-wise Quadratic Programs (QPs) that share a common layer Hessian. Solving these QPs yields the per-row globally optimal update with respect to the reconstruction objective given the estimated Hessian. The shared-Hessian structure makes the problem highly amenable to batching on accelerators. We implement an accelerator-friendly QP solver that accumulates one Hessian per layer and solves many small QPs in parallel, enabling one-shot post-training pruning at scale on a single accelerator without fine-tuning. OPTIMA integrates with existing mask selectors and consistently improves zero-shot performance across multiple LLM families and sparsity regimes, yielding up to 3.97% absolute accuracy improvement. On an NVIDIA H100, OPTIMA prunes a 8B-parameter transformer end-to-end in 40 hours with 60GB peak memory. Together, these results set a new state-of-the-art accuracy-efficiency trade-offs for one-shot post-training pruning.
- Abstract(参考訳): ポストトレーニングモデルプルーニングは有望な解であるが、トレードオフに直面している: 単純なヒューリスティックでは、ゼロウェイトは高速だが精度は劣化するが、原則付き共同最適化法は精度を回復するが、現代のスケールでは計算不可能である。
SparseGPTのようなワンショット手法は、効率的で近似的なヒューリスティックな重み更新を適用することで、最適化の実践的なトレードオフを提供する。
このギャップを埋めるために,我々は,精度とスケーラビリティのバランスを保ちながら,実践的なワンショット訓練後のプルーニング手法であるOPTIMAを紹介した。
OPTIMAは、マスク選択後のレイヤワイト再構築を、共通のレイヤであるヘッセン(Hessian)を共有する独立した行ワイト準プログラム(QPs)として実施する。
これらのQPを解くことで、推定されたヘッセンの再現目標に対して、グローバルにロー当たりの最適更新が得られる。
共有ヘッセン構造は、加速器のバッチ化に高い効果を与える。
我々は,1層に1つのHessianを蓄積し,多数の小さなQPを並列に解決する,加速器フレンドリーなQPソルバを実装した。
OPTIMAは既存のマスクセレクタと統合され、複数のLLMファミリーやスパーシティレジームでゼロショット性能を継続的に改善し、絶対精度を最大3.97%向上させる。
NVIDIA H100では、OPTIMAは8Bパラメータートランスフォーマーを60GBのピークメモリで40時間で終端する。
これらの結果は同時に、一発の訓練後プルーニングのための最先端の精度効率トレードオフを新たに設定した。
関連論文リスト
- End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [48.55966021231297]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - Fast as CHITA: Neural Network Pruning with Combinatorial Optimization [9.440450886684603]
本稿では,複数重みの重み付けと重み付けの併用効果を両立する最適化型プルーニングフレームワークを提案する。
我々のアプローチであるCHITAは、古典的なBrain Surgeonフレームワークを拡張し、スピード、メモリ、パフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-02-28T15:03:18Z) - SPDY: Accurate Pruning with Speedup Guarantees [29.284147465251685]
SPDYは、所望の推論スピードアップを達成するために、レイヤーワイドのスパシティターゲットを自動的に決定する新しい圧縮手法である。
また,SPDYは,ワンショットおよび段階的なプルーニングシナリオにおいて,既存の戦略と比較して高い精度を回復しつつ,スピードアップを保証していることを示す。
また、非常に少ないデータでプルーニングを行うという最近提案されたタスクにアプローチを拡張し、GPUをサポートする2:4のスパーシティパターンにプルーニングする際に最もよく知られた精度回復を実現する。
論文 参考訳(メタデータ) (2022-01-31T10:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。