論文の概要: Don't Be Greedy, Just Relax! Pruning LLMs via Frank-Wolfe
- arxiv url: http://arxiv.org/abs/2510.13713v1
- Date: Wed, 15 Oct 2025 16:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.756153
- Title: Don't Be Greedy, Just Relax! Pruning LLMs via Frank-Wolfe
- Title(参考訳): LLMをフランク・ウルフで打ち破る
- Authors: Christophe Roux, Max Zimmer, Alexandre d'Aspremont, Sebastian Pokutta,
- Abstract要約: State-of-the-art Large Language Model (LLM) プルーニング手法は階層的に動作し、階層ごとのプルーニングエラーを最小限に抑え、完全な再トレーニングを回避する。
既存の手法は、刈り上げ対象の重量相互作用を無視する欲求凸に依存する。
提案手法は, 層ごとのプルーニング誤差を大幅に低減し, 最先端のGPTアーキテクチャにおいて高いベースラインを達成し, メモリ効率を保っている。
- 参考スコア(独自算出の注目度): 61.68406997155879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pruning is a common technique to reduce the compute and storage requirements of Neural Networks. While conventional approaches typically retrain the model to recover pruning-induced performance degradation, state-of-the-art Large Language Model (LLM) pruning methods operate layer-wise, minimizing the per-layer pruning error on a small calibration dataset to avoid full retraining, which is considered computationally prohibitive for LLMs. However, finding the optimal pruning mask is a hard combinatorial problem and solving it to optimality is intractable. Existing methods hence rely on greedy heuristics that ignore the weight interactions in the pruning objective. In this work, we instead consider the convex relaxation of these combinatorial constraints and solve the resulting problem using the Frank-Wolfe (FW) algorithm. Our method drastically reduces the per-layer pruning error, outperforms strong baselines on state-of-the-art GPT architectures, and remains memory-efficient. We provide theoretical justification by showing that, combined with the convergence guarantees of the FW algorithm, we obtain an approximate solution to the original combinatorial problem upon rounding the relaxed solution to integrality.
- Abstract(参考訳): プルーニング(Pruning)は、ニューラルネットワークの計算およびストレージ要件を低減するための一般的なテクニックである。
従来の手法では、プルーニングによる性能劣化の回復のためにモデルをリトレーニングするが、最先端のLarge Language Model (LLM) プルーニング手法は階層的に動作し、小さなキャリブレーションデータセット上の層ごとプルーニング誤差を最小限に抑え、完全なリトレーニングを回避する。
しかし,最適プルーニングマスクの発見は難しい組合せ問題であり,最適性を解くことは困難である。
既存の手法は、刈り上げの目的における重量相互作用を無視する強欲なヒューリスティックに頼っている。
そこで本研究では,これらの組合せ制約の凸緩和を考慮し,FW(Frank-Wolfe)アルゴリズムを用いて問題を解く。
提案手法は, 層ごとのプルーニング誤差を大幅に低減し, 最先端のGPTアーキテクチャにおいて高いベースラインを達成し, メモリ効率を保っている。
我々は、FWアルゴリズムの収束保証と組み合わせて、緩和された解を積分性に丸める際に、元の組合せ問題に対する近似解を得ることを示す理論的正当性を与える。
関連論文リスト
- Learning based convex approximation for constrained parametric optimization [11.379408842026981]
本稿では、制約付き最適化問題を解決するために、入力ニューラルネットワーク(ICNN)に基づく自己教師付き学習フレームワークを提案する。
厳密な収束解析を行い、このフレームワークが元の問題のKKT近似点に収束することを示す。
提案手法は精度,実現可能性,計算効率の両立を実現している。
論文 参考訳(メタデータ) (2025-05-07T00:33:14Z) - Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
ネットワークプルーニングのためのemphtop-upアルゴリズムであるtextscNeuroALを提案する。
これは、高密度モデルとスパースバージョンの両方から情報を利用するブロックワイドと行ワイドのスパース性を変更する。
パフォーマンスと実行時のトレードオフの観点から、最新の最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-11T15:30:16Z) - A Learned Proximal Alternating Minimization Algorithm and Its Induced Network for a Class of Two-block Nonconvex and Nonsmooth Optimization [4.975853671529418]
本研究では,学習可能な2ブロック非平滑問題の解法として,一般学習型交互最小化アルゴリズムLPAMを提案する。
提案するLPAM-netはパラメータ効率が高く,いくつかの最先端手法と比較して良好な性能を示す。
論文 参考訳(メタデータ) (2024-11-10T02:02:32Z) - Alternating Minimization Schemes for Computing Rate-Distortion-Perception Functions with $f$-Divergence Perception Constraints [9.788112471288057]
離散メモリレスソースに対するRDPF(Ralse-Distortion-Perception Function)の計算について検討した。
凸プログラミング問題に対する最適パラメトリック解を特徴付ける。
必要かつ十分な条件を導出することにより、両スキームがグローバルな最適解を保証できることが示される。
論文 参考訳(メタデータ) (2024-08-27T12:50:12Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time [45.72323731094864]
本稿では,2層ReLULUネットワーク間における重み減衰と凸緩和の最適性ギャップについて検討する。
私たちの研究は、なぜローカルメソッドがうまく機能するのかを理解することに新たな光を当てています。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。