論文の概要: GradPruner: Gradient-Guided Layer Pruning Enabling Efficient Fine-Tuning and Inference for LLMs
- arxiv url: http://arxiv.org/abs/2601.19503v1
- Date: Tue, 27 Jan 2026 11:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.302107
- Title: GradPruner: Gradient-Guided Layer Pruning Enabling Efficient Fine-Tuning and Inference for LLMs
- Title(参考訳): GradPruner: LLMの高効率微調整と推論を実現するグラッドプルーナー
- Authors: Wei Huang, Anda Cheng, Yinggui Wang,
- Abstract要約: GradPrunerは、微調整の初期段階において、勾配によってガイドされる大規模言語モデルのレイヤをプルークすることができる。
結果、GradPrunerはパラメータを40%削減し、精度は0.99%しか低下していないことがわかった。
- 参考スコア(独自算出の注目度): 10.61152477422108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning Large Language Models (LLMs) with downstream data is often considered time-consuming and expensive. Structured pruning methods are primarily employed to improve the inference efficiency of pre-trained models. Meanwhile, they often require additional time and memory for training, knowledge distillation, structure search, and other strategies, making efficient model fine-tuning challenging to achieve. To simultaneously enhance the training and inference efficiency of downstream task fine-tuning, we introduce GradPruner, which can prune layers of LLMs guided by gradients in the early stages of fine-tuning. GradPruner uses the cumulative gradients of each parameter during the initial phase of fine-tuning to compute the Initial Gradient Information Accumulation Matrix (IGIA-Matrix) to assess the importance of layers and perform pruning. We sparsify the pruned layers based on the IGIA-Matrix and merge them with the remaining layers. Only elements with the same sign are merged to reduce interference from sign variations. We conducted extensive experiments on two LLMs across eight downstream datasets. Including medical, financial, and general benchmark tasks. The results demonstrate that GradPruner has achieved a parameter reduction of 40% with only a 0.99% decrease in accuracy. Our code is publicly available.
- Abstract(参考訳): 下流データを用いた微調整大型言語モデル(LLM)は、しばしば時間と費用がかかると考えられている。
構造化プルーニング法は主に、事前訓練されたモデルの推論効率を改善するために使用される。
一方、訓練、知識の蒸留、構造探索、その他の戦略のために追加の時間と記憶を必要とすることが多く、効率的なモデルの微調整を困難にしている。
下流タスクファインチューニングのトレーニングと推論効率を同時に向上するため,我々はGradPrunerを紹介した。
GradPrunerは、微調整の初期段階で各パラメータの累積勾配を用いて、初期勾配情報蓄積行列(IGIA-Matrix)を計算し、レイヤーの重要性を評価し、プルーニングを行う。
IGIA-Matrixをベースとした破片層をスパシフィケートし、残りの層とマージします。
同じ記号を持つ要素のみをマージして、符号の変動からの干渉を減らす。
我々は8つの下流データセットにまたがる2つのLLM実験を行った。
医学、金融、一般的なベンチマークタスクを含む。
その結果、GradPrunerはパラメータを40%削減し、精度は0.99%しか低下していないことがわかった。
私たちのコードは公開されています。
関連論文リスト
- Compress to Impress: Efficient LLM Adaptation Using a Single Gradient Step on 100 Samples [57.67658635348395]
LASERの網羅的で、マトリクスごとの探索は、迅速な展開には実用的ではない。
これらの結果を組み合わせることで、下流タスクに対する高速で堅牢な適応アルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2025-10-23T17:58:01Z) - SDMPrune: Self-Distillation MLP Pruning for Efficient Large Language Models [3.962074007736394]
原モデルの予測を十分に活用するために,プレニング段階(後訓練ではなく)に自己蒸留損失を導入する。
提案手法は,既存の刈り取り法よりも大幅に優れていることを示す。
提案手法は,1BスケールのオープンソースLLMにおいて,非常に競争力のある性能を実現する。
論文 参考訳(メタデータ) (2025-06-10T02:24:32Z) - Two-Stage Regularization-Based Structured Pruning for LLMs [32.65416603453818]
TRSP: 大規模言語モデルのための2段階規則化に基づく構造化プルーニング。
TRSPは, 再学習を必要とせず, 強い階層構造を有するプルーニング法よりも優れた性能を示すことを示す。
層ワイドプルーニング法として、注目すべきエンドツーエンドアクセラレーションを提供する。
論文 参考訳(メタデータ) (2025-05-23T12:40:59Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Enhancing Large Language Model Performance with Gradient-Based Parameter Selection [32.88329156118533]
Gradient-Mask Tuning (GMT) は、勾配情報に基づいてトレーニング中のパラメータを選択的に更新する手法である。
実験により, GMTは従来の微調整法に勝るだけでなく, LLM性能の上限も高めることを示した。
論文 参考訳(メタデータ) (2024-06-21T17:42:52Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。