論文の概要: PrunePath: Towards Highly Structured Sparse Language Models
- arxiv url: http://arxiv.org/abs/2605.28283v1
- Date: Wed, 27 May 2026 10:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.976417
- Title: PrunePath: Towards Highly Structured Sparse Language Models
- Title(参考訳): PrunePath: 高度に構造化されたスパース言語モデルを目指して
- Authors: Zhexuan Gu, Zixun Fu, Yancheng Yuan,
- Abstract要約: FFN層のための予算適応型構造化スペーシングフレームワークである textbfPrunePath を紹介する。
PrunePathは、独立の専門家による閾値設定をソフトマックス正規化ルーティングディストリビューションに置き換える。
NLU、NLG、命令チューニング評価の他、PrunePathは好適なスパシティ-パフォーマンストレードオフを実現している。
- 参考スコア(独自算出の注目度): 8.390447915838122
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Feed-forward networks (FFNs) dominate the parameter count and computation of modern language models, yet existing pruning methods often struggle to convert sparsity into hardware-friendly inference efficiency gains. We introduce \textbf{PrunePath}, a budget-adaptive structured sparsification framework for FFN layers. Built on MoEfication, PrunePath replaces independent expert-wise thresholding with a softmax-normalized routing distribution and activates important experts under a cumulative-mass threshold. This formulation imposes a token-level probability budget, enabling adaptive expert counts and a direct inference-time sparsity knob from a single checkpoint. Across NLU, NLG, and instruction-tuning evaluations, PrunePath achieves a favorable sparsity--performance trade-off compared with existing static pruning and MoEfication-based methods. We further implement Triton kernels for KV-cache decoding to translate the resulting structured sparsity into practical memory savings and measurable decoding-speed improvements. These results demonstrate the superior performance of PrunePath for building highly sparse, deployment-friendly large language models.
- Abstract(参考訳): フィードフォワードネットワーク(FFN)は、現代の言語モデルのパラメータ数と計算を支配しているが、既存のプルーニング手法は、スパーシティをハードウェアフレンドリーな推論効率向上に変換するのに苦労することが多い。
FFN層のための予算適応型構造化スカラー化フレームワークである \textbf{PrunePath} を紹介する。
MoEfication上に構築されたPrunePathは、独立した専門家の閾値設定をソフトマックス正規化ルーティング分布に置き換え、累積質量閾値の下で重要な専門家を活性化する。
この定式化はトークンレベルの確率予算を課し、適応的な専門家数と1つのチェックポイントからの直接推論時間間隔ノブを可能にする。
NLU, NLG, 命令調整評価の他, PrunePathは, 既存の静的プルーニングやMoEficationベースの手法と比較して, 性能トレードオフを良好に実現している。
さらに、KV-cacheデコードのためのTritonカーネルを実装し、結果として得られる構造的疎結合を実用的なメモリセーブと測定可能なデコード高速化に変換する。
これらの結果は、PrunePathが高度にスパースでデプロイしやすい大規模言語モデルを構築する上で、優れたパフォーマンスを示している。
関連論文リスト
- Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models [65.89572755202245]
拡散言語モデル(DLM)は、より強力なグローバル認識と高い並列生成を提供する。
標準負のエビデンス下界(NELBO)に基づく教師付き微調整後のDLMは非効率である。
そこで本研究では,学習を推論の容易かつハードな構造に整合させる,自己蒸留軌道に基づくポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T09:39:06Z) - OTPrune: Distribution-Aligned Visual Token Pruning via Optimal Transport [20.586206895801258]
マルチモーダル大言語モデル(MLLM)は、強力な視覚言語推論を実現するが、冗長な視覚トークンによって高い推論コストを被る。
最近の研究は、推論を加速するために視覚的トークンプルーニングを探求する一方で、既存のプルーニング手法は、視覚的表現の基盤となる分布構造を見落としている。
本稿では,最適輸送による分散アライメントとしてプルーニングを定式化する,トレーニング不要のフレームワークOTPruneを提案する。
論文 参考訳(メタデータ) (2026-02-22T21:02:47Z) - POP: Online Structural Pruning Enables Efficient Inference of Large Foundation Models [12.10403234534641]
POP(Partition-guided Online Pruning)は、計算オーバーヘッドを最小限に抑えた効率的なオンライン構造解析フレームワークである。
POPは、オフラインキャリブレーション、リトレーニング、学習予測など、事前処理を必要としない軽量なプラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2026-02-06T16:07:42Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。