論文の概要: The Structural Scalpel: Automated Contiguous Layer Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.23652v1
- Date: Sat, 25 Oct 2025 16:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.31461
- Title: The Structural Scalpel: Automated Contiguous Layer Pruning for Large Language Models
- Title(参考訳): 構造スカルペル:大規模言語モデルのための連続層プルーニングの自動化
- Authors: Yao Lu, Yuqi Li, Wenbin Xie, Shanqing Yu, Qi Xuan, Zhaowei Zhu, Shiping Wen,
- Abstract要約: 大規模言語モデルのための新しい連続層プルーニングフレームワークであるCLPを提案する。
CLPは、プルーニングに最適な連続層セグメントを自動的に識別する、微分可能な凹面ゲートアルゴリズムを使用している。
CLPは量子化とシームレスに結合して、わずかな性能損失だけでモデルをさらに圧縮することができる。
- 参考スコア(独自算出の注目度): 33.90597962418094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) have achieved revolutionary breakthroughs in many fields, their large model size and high computational cost pose significant challenges for practical deployment on resource-constrained edge devices. To this end, layer pruning has been proposed to reduce the computational overhead by directly removing redundant layers. However, existing layer pruning methods typically rely on hand-crafted metrics to evaluate and remove individual layers, while ignoring the dependencies between layers. This can disrupt the model's information flow and severely degrade performance. To address these issues, we propose CLP, a novel continuous layer pruning framework that introduces two key innovations: a differentiable concave gate algorithm that automatically identifies the best continuous layer segments for pruning via gradient-based optimization; and a cutoff endpoint tuning strategy that effectively restores model performance by fine-tuning only the layers adjacent to the pruned segments. Extensive experiments across multiple model architectures (including LLaMA2, LLaMA3 and Qwen) and sizes (from $7$B to $70$B parameters) show that CLP significantly outperforms existing state-of-the-art baselines. For example, at a pruning rate of $20\%$, CLP achieves an average performance retention of $95.34\%$ on LLaMA3-70B, outperforming baselines by $4.29\%$-$30.52\%$. Furthermore, CLP can be seamlessly combined with quantization to further compress the model with only a slight performance loss.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの分野で画期的なブレークスルーを達成しているが、その大きなモデルサイズと高い計算コストは、リソース制約されたエッジデバイスへの実践的な展開に重大な課題をもたらす。
この目的のために, 余剰層を直接除去することで計算オーバーヘッドを低減するために, 層プルーニングが提案されている。
しかしながら、既存のレイヤプルーニングメソッドは一般的に、個々のレイヤの評価と削除に手作りのメトリクスを頼りながら、レイヤ間の依存関係を無視します。
これにより、モデルの情報フローが破壊され、パフォーマンスが著しく低下する可能性がある。
これらの問題に対処するために,CLP は2つの重要な革新をもたらす新しい連続層プルーニングフレームワークである。これは,勾配に基づく最適化によるプルーニングにおける最良の連続層セグメントを自動的に識別する微分可能な凹面ゲートアルゴリズムと,プルーニングされたセグメントに隣接する層のみを微調整することでモデル性能を効果的に回復するカットオフエンドポイントチューニング戦略である。
複数のモデルアーキテクチャ(LLaMA2、LLaMA3、Qwenを含む)とサイズ(7ドルBから70ドルBまで)にわたる大規模な実験では、CLPが既存の最先端のベースラインを大幅に上回っていることが示されている。
例えば、20 %のプルーニングレートで、CLP は LLaMA3-70B 上での平均的なパフォーマンス保持率 95.34 % を達成し、ベースラインを 4.29 %$-30.52 % で上回っている。
さらに、CLPと量子化をシームレスに組み合わせることで、わずかな性能損失でモデルをさらに圧縮することができる。
関連論文リスト
- Curvature-Weighted Capacity Allocation: A Minimum Description Length Framework for Layer-Adaptive Large Language Model Optimization [8.029535985033485]
大規模な言語モデルにおけるレイヤーのキャパシティは、一様ではなく、あるレイヤは損失削減に不均一に寄与し、他のレイヤは、ほぼ冗長である。
影響関数に基づくレイヤスコアリングのような、この非均一性を利用する既存の手法は、感度推定を生成するが、それらをアロケーションやプルーニング決定に変換するための原則化されたメカニズムは提供しない。
このギャップを,MDL(Minimum Description Length)の原理に基づく統一された曲率対応フレームワークで解決する。
論文 参考訳(メタデータ) (2026-03-01T04:14:15Z) - Pruning as a Cooperative Game: Surrogate-Assisted Layer Contribution Estimation for Large Language Models [17.818685759025207]
レイヤーワイズプルーニングは推論コストを軽減するために一般的に使用される戦略である。
本稿では,協調ゲームとしてレイヤープルーニングを定式化するゲーム理論フレームワークを提案する。
大規模な言語モデルに対して、より効率的で効果的なレイヤワイドプルーニングを実現する。
論文 参考訳(メタデータ) (2026-02-08T03:51:36Z) - Understanding and Guiding Layer Placement in Parameter-Efficient Fine-Tuning of Large Language Models [19.448467763421707]
大規模言語モデル(LLM)は成長を続けており、パラメータ効率の良い微調整が下流適応のデフォルト戦略となっている。
現在のプラクティスは一般的に、すべてのレイヤに対してPEFTを統一的に適用し、レイヤの選択を限定的に理解または活用する。
本稿では,凍結ベースモデル上でPEFTの統一的残差ビューを開発する。
論文 参考訳(メタデータ) (2026-02-03T21:05:55Z) - Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.7618807098457]
大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。
本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。
構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:57:08Z) - A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [13.000188564679998]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるPatch-like'の特徴関係を明らかにする。
本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。
提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文 参考訳(メタデータ) (2025-02-26T14:15:24Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models [54.787308652357794]
FinerCutは変圧器ネットワークのための微細な層プルーニングの新たな形式である。
Llama3-8Bは25%の層を除去し,Llama3-70Bは95%の層を除去した。
論文 参考訳(メタデータ) (2024-05-28T14:21:15Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。