Fugu-MT 論文翻訳(概要): Compressing Large Language Models by Streamlining the Unimportant Layer

論文の概要: Compressing Large Language Models by Streamlining the Unimportant Layer

arxiv url: http://arxiv.org/abs/2403.19135v2
Date: Sun, 31 Mar 2024 08:16:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 13:15:05.952141
Title: Compressing Large Language Models by Streamlining the Unimportant Layer
Title（参考訳）: 統一層を合理化して大言語モデルを圧縮する
Authors: Xiaodong Chen, Yuxuan Hu, Jing Zhang,
Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語のタスクやドメインに広く適用されている。本稿では,レイヤプルーニングと層置換という2つの部分からなるLCM-Streamlineを提案する。提案手法であるLCM-Streamlineは,従来の最先端(SOTA)モデルプルーニング法より優れていた。
参考スコア（独自算出の注目度）: 13.03815753589673
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLM) have been extensively applied in various natural language tasks and domains, but their applicability is constrained by the large number of parameters of the models. Consequently, there is an increasing emphasis on compact models that exhibit high performance. In this study, we observe that different layers in LLM have varying degrees of perturbation on the hidden states, which allows us to identify less important layers. Based on this phenomenon, we propose LLM-Streamline, which consists of two parts: layer pruning, where we remove a set of consecutive layers with the lowest importance in the model according to the target sparsity; and layer replacement, where we train a lightweight model to substitute the pruned layers, thereby mitigating the performance degradation caused by pruning. In our experiments, we utilize structures such as a multi-layer perceptron (MLP) and a transformer layer as lightweight models and ultimately demonstrate that a single MLP can effectively fit the pruned layers. Comprehensive experiments show that our proposed method, LLM-Streamline, outperforms previous state-of-the-art (SOTA) model pruning methods.
Abstract（参考訳）: 大規模言語モデル(LLM)は様々な自然言語タスクやドメインに広く適用されてきたが、それらの適用性はモデルの多くのパラメータによって制約されている。その結果、高性能を示すコンパクトモデルに重点が置かれている。本研究では,LLMの異なる層が隠れた状態に対して摂動の程度が異なることを観察し,より重要でない層を同定する。そこで,本研究では, 対象の空間に応じて, モデルに最も重要度の高い連続層群を除去する層プルーニングと, プルーニングによる性能劣化を軽減するために軽量モデルを訓練する層置換という2つの部分からなるLCM-Streamlineを提案する。実験では,マルチ層パーセプトロン (MLP) やトランスフォーマー層などの構造を軽量モデルとして利用し,最終的に単一のMLPが破砕層に効果的に適合できることを実証した。総合実験により,提案手法のLLM-Streamlineは,従来のSOTAモデルプルーニング法よりも優れた性能を示した。

関連論文リスト

A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [14.514670828712669]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるレイヤ間の"パッチライクな"特徴関係を明らかにする。本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文参考訳（メタデータ） (2025-02-26T14:15:24Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文参考訳（メタデータ） (2024-11-23T13:31:16Z)
LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。 LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文参考訳（メタデータ） (2024-10-22T16:26:05Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
Chip-Tuning: Classify Before Language Models Say [25.546473157624945]
チップチューニングは、分類問題に対するシンプルで効果的な構造化プルーニングフレームワークである。チップチューニングは,従来の最先端のベースラインを精度とプルーニング比の両方で大幅に上回っていることを示す。また、チップチューニングはマルチモーダルモデルに適用でき、モデル微調整と組み合わせることで、優れた互換性が証明できる。
論文参考訳（メタデータ） (2024-10-09T04:35:22Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文参考訳（メタデータ） (2024-07-23T08:40:27Z)
MINI-LLM: Memory-Efficient Structured Pruning for Large Language Models [20.958265043544603]
大規模言語モデル(LLM)は劇的に成長する。これらのモデルの圧縮と高速化の傾向が増している。本研究では, 粒度, アクティベーション, 勾配を適切に統合したハイブリッドプルーニング基準を提案する。
論文参考訳（メタデータ） (2024-07-16T12:59:44Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
RankAdaptor: Hierarchical Rank Allocation for Efficient Fine-Tuning Pruned LLMs via Performance Model [4.926801686932735]
そこで我々は,階層的なランクアロケーション手法であるRancedAdaptorを紹介した。 RankAdaptorは、様々なプルーニング設定やLLMアーキテクチャにおいて、最先端のメソッドよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2024-06-22T04:52:58Z)
LayerMerge: Neural Network Depth Compression through Layer Pruning and Merging [20.774060844559838]
既存の深度圧縮法では、冗長な非線形活性化関数を除去し、連続する畳み込み層を単一の層にマージする。これらの手法は、マージされたレイヤのカーネルサイズが大きくなるという重大な欠点に悩まされる。畳み込み層とアクティベーション関数を併用することにより,この問題に対処できることを示す。本稿では,どのアクティベーション層と畳み込み層を除去するかを選択するディープ圧縮手法であるLayerMergeを提案する。
論文参考訳（メタデータ） (2024-06-18T17:55:15Z)
BlockPruner: Fine-grained Pruning for Large Language Models [23.523314522663455]
研究によると、大きな言語モデル(LLM)の特定のレイヤは、かなりの冗長性を持ち、これらのレイヤを刈り取ることは、全体的なパフォーマンスに最小限の影響を与える。そこで我々は,BlockPrunerと呼ばれる新しい,トレーニング不要な構造化プルーニング手法を提案する。我々は,BlockPrunerが最先端のベースラインよりも粒度が高く,効率的なプルーニングを実現していることを示す。
論文参考訳（メタデータ） (2024-06-15T11:03:33Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
The Unreasonable Ineffectiveness of the Deeper Layers [5.984361440126354]
本研究では,オープンウェイトプレトレーニング LLM の一般家庭を対象とした簡易な階層分割戦略について検討する。レイヤーの大部分が取り除かれるまで、パフォーマンスの最小限の劣化が見られます。科学的見地からすると、これらのLCMの堅牢性からレイヤの削除は、現在の事前学習手法がネットワークの深い層におけるパラメータを適切に活用していない、あるいは浅い層が知識を保存する上で重要な役割を担っていることを示唆している。
論文参考訳（メタデータ） (2024-03-26T17:20:04Z)
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2024-03-06T17:04:18Z)
BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。 SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文参考訳（メタデータ） (2024-02-18T12:44:15Z)
LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文参考訳（メタデータ） (2024-02-17T04:16:30Z)
Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。 LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文参考訳（メタデータ） (2020-10-15T09:14:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。