論文の概要: GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching
- arxiv url: http://arxiv.org/abs/2506.20480v1
- Date: Wed, 25 Jun 2025 14:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.784294
- Title: GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching
- Title(参考訳): GPTailor: レイヤーカットとスティッチを通した大規模言語モデル
- Authors: Guinan Su, Li Shen, Lu Yin, Shiwei Liu, Yanwu Yang, Jonas Geiping,
- Abstract要約: 大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
LLMは通常、相当なモデルサイズを持ち、デプロイメントと推論において大きな課題をもたらします。
そこで我々は, モデルモデルから層を戦略的に組み合わせたり, マージしたりすることで, モデルを圧縮するための新しい戦略を開発した。
- 参考スコア(独自算出の注目度): 41.96482857947199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities in language understanding and generation. However, such impressive capability typically comes with a substantial model size, which presents significant challenges in deployment and inference. While structured pruning of model parameters offers a promising way to reduce computational costs at deployment time, current methods primarily focus on single model pruning. In this work, we develop a novel strategy to compress models by strategically combining or merging layers from finetuned model variants, which preserves the original model's abilities by aggregating capabilities accentuated in different finetunes. We pose the optimal tailoring of these LLMs as a zero-order optimization problem, adopting a search space that supports three different operations: (1) Layer removal, (2) Layer selection from different candidate models, and (3) Layer merging. Our experiments demonstrate that this approach leads to competitive model pruning, for example, for the Llama2-13B model families, our compressed models maintain approximately 97.3\% of the original performance while removing $\sim25\%$ of parameters, significantly outperforming previous state-of-the-art methods. The code is available at https://github.com/Guinan-Su/auto-merge-llm.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
しかしながら、そのような印象的な機能は通常、相当なモデルサイズが伴い、デプロイメントと推論において大きな課題が生じる。
モデルパラメータの構造的プルーニングは、デプロイメント時の計算コストを削減するための有望な方法であるが、現在の手法は主に単一モデルプルーニングに焦点を当てている。
本研究では,異なるファインチューンでアクセント付けされたアグリゲーション能力を用いて,モデルの能力を保ったモデル変異体から層を戦略的に結合またはマージすることで,モデルを圧縮する新たな戦略を開発する。
1) 層除去, (2) 異なる候補モデルからの層選択, (3) 層マージという3つの異なる操作をサポートする探索空間を採用することで, ゼロ階最適化問題としてこれらのLSMを最適に調整する。
例えば、Llama2-13Bモデルファミリでは、圧縮されたモデルが元の性能の約97.3 %を維持し、パラメータの$\sim25\%を除去し、従来の手法よりも大幅に優れていた。
コードはhttps://github.com/Guinan-Su/auto-merge-llm.comで公開されている。
関連論文リスト
- Merging Feed-Forward Sublayers for Compressed Transformers [16.746335565636976]
モデル内の類似パラメータ群をマージすることで,モデル圧縮に対する新しいアプローチを提案する。
具体的には、Transformerモデルでフィードフォワードサブレイヤを分離し、アライメントし、マージする。
モデルフィードフォワードサブレイヤの3分の1以上を組み合わせながら、元のモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2025-01-10T17:25:11Z) - Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
PLeaSと呼ばれるモデルをマージする2段階の新たなアルゴリズムを提案し、制約を緩和する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
また、細調整されたドメインからデータを入手できないという難題に対処するために、我々のメソッドをどのように拡張できるかを実証する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。