論文の概要: Deterministic Differentiable Structured Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.08065v1
- Date: Mon, 09 Mar 2026 07:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.63777
- Title: Deterministic Differentiable Structured Pruning for Large Language Models
- Title(参考訳): 大規模言語モデルに対する決定論的微分可能な構造化プルーニング
- Authors: Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen,
- Abstract要約: 構造化プルーニングは、重要度の低いアーキテクチャ部品を取り除き、LLM推論コストを削減する。
マスクのみの最適化手法であるDDP(Deterministic Differentiable Pruning)を提案する。
従来のアプローチと比較して、DDPはより表現力が高く、テストミスマッチが減少し、より早く収束する。
- 参考スコア(独自算出の注目度): 37.33389749907146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured pruning reduces LLM inference cost by removing low-importance architectural components. This can be viewed as learning a multiplicative gate for each component under an l0 sparsity constraint. Due to the discreteness of the l0 norm, prior work typically adopts stochastic hard-concrete relaxations to enable differentiable optimization; however, this stochasticity can introduce a train--test mismatch when sampled masks are discretized for deployment and restricts masks to a bounded, near-binary range. To address this, we propose Deterministic Differentiable Pruning (DDP), a mask-only optimization method that eliminates stochasticity by directly optimizing a deterministic soft surrogate of the discrete l0 objective. Compared with prior approaches, DDP offers greater expressiveness, reduced train--test mismatch, and faster convergence. We apply our method to several dense and MoE models, including Qwen3-32B and Qwen3-30B-A3B, achieving a performance loss as small as 1% on downstream tasks while outperforming previous methods at 20% sparsity. We further demonstrate end-to-end inference speedups in realistic deployment settings with vLLM.
- Abstract(参考訳): 構造化プルーニングは、重要度の低いアーキテクチャ部品を取り除き、LLM推論コストを削減する。
これは、l0間隔制約の下で各コンポーネントの乗法ゲートを学ぶと見なすことができる。
l0ノルムの離散性のため、事前の作業は通常、確率的なハードコンクリート緩和を採用して、微分可能な最適化を可能にするが、この確率性は、サンプルマスクが配置のために離散化され、マスクが有界に近い2値範囲に制限されたときに、列車のミスマッチを導入することができる。
そこで本研究では, 確率性を直接最適化することにより, マスクのみの最適化手法であるDDP(Deterministic Differentiable Pruning)を提案する。
従来のアプローチと比較して、DDPはより表現力が高く、テストミスマッチが減少し、より早く収束する。
Qwen3-32B や Qwen3-30B-A3B などの高密度・高密度モデルに適用し,従来の手法を20%の間隔で上回りながら,ダウンストリームタスクにおける性能損失を 1% に抑えた。
さらに、vLLMによる現実的なデプロイメント設定において、エンドツーエンドの推論スピードアップを実証する。
関連論文リスト
- DiffIM: Differentiable Influence Minimization with Surrogate Modeling and Continuous Relaxation [23.06479920145709]
影響最小化(IMIN)は、ノード間の伝播を減らすために入力グラフの構造を操作する問題である。
DiffIMは、加速のための2つの異なるスキームを持つIMINの新しい手法である。
提案手法は,IMINの性能劣化をほとんど(あるいは全く)伴わず,性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-02-03T03:54:23Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Fast Ensembling with Diffusion Schrödinger Bridge [17.334437293164566]
ディープ・アンサンブル(Deep Ensemble、DE)アプローチは、様々な初期点からニューラルネットワークを訓練し、様々な局所最適点に向かって収束させることにより、ディープ・ニューラルネットワークの性能を高めるための簡単な手法である。
本稿では,Diffusion Bridge Network (DBN) と呼ばれる新しい手法を提案する。
この軽量ニューラルネットワークDBNで重アンサンブルを置換することにより、CIFAR-10、CIFAR-100、TinyImageNetなどのベンチマークデータセットの精度と不確実性を維持しながら、計算コストを削減した推論を実現した。
論文 参考訳(メタデータ) (2024-04-24T11:35:02Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - LSDAT: Low-Rank and Sparse Decomposition for Decision-based Adversarial
Attack [74.5144793386864]
LSDATは、入力サンプルのスパース成分と対向サンプルのスパース成分によって形成される低次元部分空間における摂動を加工する。
LSDは画像ピクセル領域で直接動作し、スパース性などの非$ell$制約が満たされることを保証します。
論文 参考訳(メタデータ) (2021-03-19T13:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。