論文の概要: LLM-Pruner: On the Structural Pruning of Large Language Models
- arxiv url: http://arxiv.org/abs/2305.11627v3
- Date: Thu, 28 Sep 2023 03:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 22:25:42.518507
- Title: LLM-Pruner: On the Structural Pruning of Large Language Models
- Title(参考訳): LLM-Pruner:大規模言語モデルの構造解析について
- Authors: Xinyin Ma, Gongfan Fang, Xinchao Wang
- Abstract要約: 大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
- 参考スコア(独自算出の注目度): 65.02607075556742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities in language
understanding and generation. However, such impressive capability typically
comes with a substantial model size, which presents significant challenges in
both the deployment, inference, and training stages. With LLM being a
general-purpose task solver, we explore its compression in a task-agnostic
manner, which aims to preserve the multi-task solving and language generation
ability of the original LLM. One challenge to achieving this is the enormous
size of the training corpus of LLM, which makes both data transfer and model
post-training over-burdensome. Thus, we tackle the compression of LLMs within
the bound of two constraints: being task-agnostic and minimizing the reliance
on the original training dataset. Our method, named LLM-Pruner, adopts
structural pruning that selectively removes non-critical coupled structures
based on gradient information, maximally preserving the majority of the LLM's
functionality. To this end, the performance of pruned models can be efficiently
recovered through tuning techniques, LoRA, in merely 3 hours, requiring only
50K data. We validate the LLM-Pruner on three LLMs, including LLaMA, Vicuna,
and ChatGLM, and demonstrate that the compressed models still exhibit
satisfactory capabilities in zero-shot classification and generation. The code
is available at: https://github.com/horseee/LLM-Pruner
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
しかしながら、そのような印象的な機能は通常、相当なモデルサイズが伴い、デプロイメント、推論、トレーニングステージの両方において大きな課題が生じる。
LLMは汎用的なタスクソルバであり,従来のLLMのマルチタスク解決と言語生成能力の維持を目的とした,タスク非依存の方法で圧縮を探索する。
これを実現するための1つの課題は、データ転送と後トレーニングのオーバーバーデンサムをモデル化するLLMのトレーニングコーパスの巨大なサイズである。
そこで本研究では,LLMの圧縮をタスク依存的であること,トレーニングデータセットへの依存を最小限に抑えること,という2つの制約の範囲内で行う。
llm-pruner という手法では,勾配情報に基づく非臨界結合構造を選択的に除去し,llmの機能の大部分を最大に保持する構造的プルーニングを採用する。
この目的のために、プルーニングされたモデルの性能は、わずか3時間で、わずか50Kのデータしか必要とせず、チューニング技術であるLoRAによって効率よく回復することができる。
LLaMA, Vicuna, ChatGLM の3つの LLM 上で LLM-Pruner の有効性を検証し, 圧縮されたモデルがゼロショットの分類と生成に満足できることを示す。
コードは、https://github.com/horseee/LLM-Prunerで入手できる。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論を高速化するパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
SWIFTは生成したテキストの元の分布を保ちながら1.3x-1.6xの高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。
LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。