論文の概要: Layer as Puzzle Pieces: Compressing Large Language Models through Layer Concatenation
- arxiv url: http://arxiv.org/abs/2510.15304v1
- Date: Fri, 17 Oct 2025 04:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.471752
- Title: Layer as Puzzle Pieces: Compressing Large Language Models through Layer Concatenation
- Title(参考訳): ファズルピアースとしての層:層結合による大規模言語モデル圧縮
- Authors: Fei Wang, Li Shen, Liang Ding, Chao Xue, Ye Liu, Changxing Ding,
- Abstract要約: 大きな言語モデルは自然言語処理タスクで優れていますが、その巨大なサイズは高い計算量とストレージ要求をもたらします。
近年の研究では, 層状プルーニングによるモデルサイズ削減が試みられている。
我々は、構造化プルーニングパラダイムを再検討し、いくつかの重要な制限を明らかにした。
- 参考スコア(独自算出の注目度): 43.822941944402544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models excel at natural language processing tasks, but their massive size leads to high computational and storage demands. Recent works have sought to reduce their model size through layer-wise structured pruning. However, they tend to ignore retaining the capabilities in the pruned part. In this work, we re-examine structured pruning paradigms and uncover several key limitations: 1) notable performance degradation due to direct layer removal, 2) incompetent linear weight layer aggregation, and 3) the lack of effective post-training recovery mechanisms. To address these limitations, we propose CoMe, including a progressive layer pruning framework with a Concatenation-based Merging technology and a hierarchical distillation post-training process. Specifically, we introduce a channel sensitivity metric that utilizes activation intensity and weight norms for fine-grained channel selection. Subsequently, we employ a concatenation-based layer merging method to fuse the most critical channels across adjacent layers, enabling progressive model size reduction. Finally, we propose a hierarchical distillation protocol that leverages the correspondences between the original and pruned model layers established during pruning, thereby enabling efficient knowledge transfer. Experiments on seven benchmarks show that CoMe achieves state-of-the-art performance; when pruning 30% of LLaMA-2-7b's parameters, the pruned model retains 83% of its original average accuracy. Our code is available at https://github.com/MPI-Lab/CoMe.
- Abstract(参考訳): 大きな言語モデルは自然言語処理タスクで優れていますが、その巨大なサイズは高い計算量とストレージ要求をもたらします。
近年の研究では, 層状プルーニングによるモデルサイズ削減が試みられている。
しかし、彼らは刈り取られた部分の能力を無視する傾向がある。
本研究では,構造化プルーニングパラダイムを再検討し,いくつかの重要な制約を明らかにする。
1)直接層除去による顕著な性能劣化
2)無能な線形重み層凝集,及び
3) 効果的な訓練後回復メカニズムの欠如。
これらの制約に対処するため,コンカシネーションベースのメルジング技術を用いたプログレッシブ・レイヤ・プルーニング・フレームワークと,階層的蒸留後訓練プロセスを含むCoMeを提案する。
具体的には、活性化強度と重み基準を利用して細粒度チャネル選択を行うチャネル感度指標を提案する。
その後、結合型層融合法を用いて、隣り合う層に最も重要なチャネルを融合させ、プログレッシブなモデルサイズ削減を実現する。
最後に, プルーニング時に確立したモデル層とプルーニング層との対応を利用して, 効率的な知識伝達を実現する階層型蒸留プロトコルを提案する。
7つのベンチマークの実験では、CoMeは最先端のパフォーマンスを達成しており、LLaMA-2-7bのパラメータの30%をプルーニングすると、プルーニングされたモデルは元の平均精度の83%を維持している。
私たちのコードはhttps://github.com/MPI-Lab/CoMe.comで公開されています。
関連論文リスト
- A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [13.000188564679998]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるPatch-like'の特徴関係を明らかにする。
本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。
提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文 参考訳(メタデータ) (2025-02-26T14:15:24Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。
私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-11-23T13:31:16Z) - FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models [54.787308652357794]
FinerCutは変圧器ネットワークのための微細な層プルーニングの新たな形式である。
Llama3-8Bは25%の層を除去し,Llama3-70Bは95%の層を除去した。
論文 参考訳(メタデータ) (2024-05-28T14:21:15Z) - Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。
異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。
実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。