論文の概要: Prune, Update and Trim: Robust Structured Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2605.18331v1
- Date: Mon, 18 May 2026 12:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.612219
- Title: Prune, Update and Trim: Robust Structured Pruning for Large Language Models
- Title(参考訳): Prune, Update, Trim: 大きな言語モデルのためのロバストな構造化プルーニング
- Authors: Diego Coello de Portugal Mecke, Tom Hanika, Lars Schmidth-Thieme,
- Abstract要約: 大規模言語モデル(LLM)は近年、著しい成長と発展を遂げている。
現在の訓練後のプルーニング法では、モデルのパラメータのかなりの部分を取り除いている。
本稿では,最先端技術に3つの変化をもたらすPutriを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have experienced significant growth and development in recent years. However, performing inference on LLMs remains costly, especially for long-context inference or in resource-constrained devices. This motivates the development of new post-training pruning (PTP) methods. These methods reduce LLMs' requirements by removing a substantial part of the model's parameters. The discarded weights are selected depending on their impact on the models performance. Current PTP methods prune the models by removing the less informative hidden nodes from the FFN layers, and the least important attention layers. We propose Putri, a PTP method that introduces three changes to the State- of-the-art. First, we update the un-pruned weights of the FFN to compensate for the introduced pruning error. Second, the FFN layers are pruned sequentially, taking into account the updates done to the previous layers. Third, instead of removing full attention layers, we remove individual attention-heads. We extend this method such that it can also address Grouped-Query Attention. In summary, Putri is a structure pruning method which remains simple while showing SOTA performance. Pruning experiments on multiple models with a wide variety of sparsity ranges and on different datasets, validate the generality of Putri. Notably, we demonstrate that, unlike previous methods, Putri can prune LLMs on extreme sparsity ratios. The code is available at: https://github.com/Coello-dev/Putri.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年、著しい成長と発展を遂げている。
しかし、LLM上での推論は、特に長文推論やリソース制約のあるデバイスにおいて、コストがかかるままである。
これは新しいポストトレーニング・プルーニング(PTP)手法の開発を動機付けている。
これらの手法はモデルのパラメータのかなりの部分を除去することでLCMの要求を減らす。
廃棄重量は、モデル性能への影響に応じて選択される。
現行のPTPメソッドでは、FFN層や最も重要でない注意層から、あまり情報を持たない隠されたノードを除去することで、モデルを熟成している。
本稿では,最先端技術に3つの変化をもたらすPutriを提案する。
まず、導入したプルーニング誤差を補うためにFFNの未切断重量を更新する。
第2に、FFNレイヤは順次プルーニングされ、前のレイヤに更新されたことを考慮に入れられる。
第3に、注意層を完全に取り除く代わりに、個々の注意層を取り除きます。
我々は、このメソッドを拡張して、Grouped-Query Attentionにも対応できるようにします。
要約すると、PutriはSOTA性能を示しながら単純でありながら構造解析手法である。
多様な空間範囲と異なるデータセットを持つ複数のモデルで実験を行い、Putriの一般性を検証した。
特に、従来の方法とは異なり、Putri は極端間隔比で LLM をプルークできることを示した。
コードは、https://github.com/Coello-dev/Putri.comで入手できる。
関連論文リスト
- Gradually Compacting Large Language Models for Reasoning Like a Boiling Frog [72.4168434368873]
大きな言語モデル(LLM)は印象的な推論能力を示しているが、その相当なサイズは、しばしばかなりの計算資源を必要とする。
圧縮過程を細かな繰り返しに分割する段階的圧縮法を提案する。
この「沸騰するカエル」効果の反復的なアプローチは、急激な性能損失を伴わずに、モデルを段階的に圧縮することができる。
論文 参考訳(メタデータ) (2026-02-04T06:56:52Z) - DReSS: Data-driven Regularized Structured Streamlining for Large Language Models [30.47317140878219]
大規模言語モデル(LLM)は、様々な領域で大きな進歩を遂げているが、その規模が大きくなると高い計算とメモリコストがもたらされる。
本稿では,まず正規化,次にプーン,そして最後に微細構造を適用する新しいパラダイムを提案する。
プルーニングされるコンポーネントを正規化するために少量のデータを活用することで、DReSSは、重要な情報をモデルの残りの部分に前もって明示的に転送する。
論文 参考訳(メタデータ) (2025-01-29T14:28:11Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Fast and Effective Weight Update for Pruned Large Language Models [0.0]
大きな言語モデル(LLMs)のプルーニングは、その巨大なサイズのため、難しい作業である。
最近のアプローチでは、微調整を完全に無視するか、レイヤワイド更新を試みた。
乗算器の交互方向法に基づく切削層に対する高速かつ効率的な重み更新アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-01T23:10:23Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。