Fugu-MT 論文翻訳(概要): ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

論文の概要: ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

arxiv url: http://arxiv.org/abs/2403.03853v2
Date: Thu, 7 Mar 2024 16:21:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 16:13:54.006858
Title: ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
Title（参考訳）: ShortGPT:大規模言語モデルのレイヤーは、予想以上に冗長である
Authors: Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Yaojie Lu, Xianpei Han, Weipeng Chen
Abstract要約: LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
参考スコア（独自算出の注目度）: 39.791695729504006
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Large Language Models (LLMs) continue to advance in performance, their size has escalated significantly, with current LLMs containing billions or even trillions of parameters. However, in this study, we discovered that many layers of LLMs exhibit high similarity, and some layers play a negligible role in network functionality. Based on this observation, we define a metric called Block Influence (BI) to gauge the significance of each layer in LLMs. We then propose a straightforward pruning approach: layer removal, in which we directly delete the redundant layers in LLMs based on their BI scores. Experiments demonstrate that our method, which we call ShortGPT, significantly outperforms previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT is orthogonal to quantization-like methods, enabling further reduction in parameters and computation. The ability to achieve better results through simple layer removal, as opposed to more complex pruning techniques, suggests a high degree of redundancy in the model architecture.
Abstract（参考訳）: 大規模言語モデル(LLM)のパフォーマンスが向上するにつれて、そのサイズは大幅に拡大し、現在のLLMには数十億または数兆のパラメータが含まれている。しかし,本研究では,多くのllm層が高い類似性を示し,ネットワーク機能において無視できない役割を担っていることを発見した。この観測に基づいてブロック影響(BI)と呼ばれる指標を定義し,LLMにおける各層の重要性を評価する。そこで我々は, BIスコアに基づいて, LLMの冗長層を直接除去する, 簡単なプルーニング手法を提案する。実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA法よりも大幅に優れていることを示した。さらに、shortgptは量子化のような方法と直交し、パラメータと計算のさらなる削減を可能にする。より複雑な刈り取り技術とは対照的に、単純な層除去によってよりよい結果を得る能力は、モデルアーキテクチャにおける高い冗長性を示している。

関連論文リスト

Maximum Redundancy Pruning: A Principle-Driven Layerwise Sparsity Allocation for LLMs [24.23702494859769]
大きな言語モデル(LLM)は印象的な機能を示しているが、その巨大なサイズは、現実世界のアプリケーションにデプロイする上で大きな課題をもたらしている。最近の空間割当手法は、しばしば反復や探索に基づいており、それが最適以下の性能に繋がる。我々は,最も冗長な層に浮かぶ反復的プルーニングアルゴリズムである冗長プルーニング(MRP)を提案する。
論文参考訳（メタデータ） (2025-03-24T06:17:30Z)
Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文参考訳（メタデータ） (2025-02-20T17:51:10Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
$γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。 $gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。 MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文参考訳（メタデータ） (2024-10-17T17:59:53Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Investigating Layer Importance in Large Language Models [28.156622049937216]
大規模言語モデル (LLM) は、テキストの理解と処理に際し、注目を集めている。 LLMの理解の欠如は、安全クリティカルなシナリオへの展開を妨げ、より良いモデルの開発を妨げる。本研究は, LLMの基盤層を同定し, 今後の研究におけるその重要な役割を浮き彫りにする。
論文参考訳（メタデータ） (2024-09-22T09:53:13Z)
BlockPruner: Fine-grained Pruning for Large Language Models [23.523314522663455]
研究によると、大きな言語モデル(LLM)の特定のレイヤは、かなりの冗長性を持ち、これらのレイヤを刈り取ることは、全体的なパフォーマンスに最小限の影響を与える。そこで我々は,BlockPrunerと呼ばれる新しい,トレーニング不要な構造化プルーニング手法を提案する。我々は,BlockPrunerが最先端のベースラインよりも粒度が高く,効率的なプルーニングを実現していることを示す。
論文参考訳（メタデータ） (2024-06-15T11:03:33Z)
When Attention Collapses: How Degenerate Layers in LLMs Enable Smaller, Stronger Models [61.363259848264725]
Inherituneは、より小さく、より効率的な言語モデルを構築するための、シンプルで効果的なトレーニングレシピである。 Inherituneのトレーニングしたモデルは、レイヤーが大幅に少ないにもかかわらず、より大きなモデルにマッチしたり、性能を上回ります。
論文参考訳（メタデータ） (2024-04-12T17:53:34Z)
Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。 LLM-Streamlineは2つの部分から構成される: 層プルーニング(Layer pruning)は、ターゲットの間隔に基づいて最も重要でない連続的な層を除去する。実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-28T04:12:13Z)
Why Lift so Heavy? Slimming Large Language Models by Cutting Off the Layers [2.1165011830664673]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対処する際、優れた能力を持っている。これらのモデルの厳密なサイズは、ストレージ、トレーニング、推論において、層積み重ねによる数十億のパラメータを含むため、課題を生じさせる。レイヤが少なくても、LLMは、特にテキスト分類タスクのプロンプトベースの微調整において、類似またはより良いパフォーマンスレベルを維持していることを示す。
論文参考訳（メタデータ） (2024-02-18T20:47:10Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。