論文の概要: Compresso: Structured Pruning with Collaborative Prompting Learns
Compact Large Language Models
- arxiv url: http://arxiv.org/abs/2310.05015v2
- Date: Wed, 11 Oct 2023 01:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:25:12.765880
- Title: Compresso: Structured Pruning with Collaborative Prompting Learns
Compact Large Language Models
- Title(参考訳): Compresso: コンパクトな大規模言語モデルを学ぶコラボレーティブなプロンプティングによる構造化プルーニング
- Authors: Song Guo, Jiahang Xu, Li Lyna Zhang, Mao Yang
- Abstract要約: 我々はCompressoと呼ばれる大規模言語モデルを構築するための新しいパラダイムを導入する。
提案手法は,資源効率の高いプルーニングアルゴリズムとLLM自体の協調により,学習過程における最適プルーニング決定を学習する。
実験では、Compressoは様々な空間比でワンショットプルーニングベースラインを著しく上回り、それぞれ2.21%、11.43%、7.04%、および4.81%のスコアをコモンセンス推論、読解理解、MMLU、BBHベンチマークで達成している。
- 参考スコア(独自算出の注目度): 15.471290825100075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable success of Large Language Models (LLMs), the massive
size poses significant deployment challenges, particularly on
resource-constrained hardware. While existing LLM compression methods focus on
quantization, pruning remains relatively unexplored due to the high cost of
training-based approaches and data collection challenges. One-shot pruning
methods, although cost-effective and data-free, have become dominant in LLM
pruning, but lead to performance decline under the structured pruning setting.
In this work, we introduce a new paradigm for structurally pruning LLMs, called
Compresso. Our approach, through the collaboration of the proposed
resource-efficient pruning algorithm and the LLM itself, learns optimal pruning
decisions during the training process. Compresso addresses the challenges of
expensive training costs and data collection by incorporating Low-Rank
Adaptation (LoRA) into the $L_0$ regularization during the instruction tuning
process. Then, we further augment the pruning algorithm by introducing a
collaborative prompt that fosters collaboration between the LLM and the pruning
algorithm, significantly boosting the overall performance. To this end,
Compresso prunes LLaMA-7B to 5.4B, maintaining original performance and even
surpassing LLaMA-7B in reading comprehension by 2.62%. Extensive experiments
demonstrate that Compresso significantly outperforms one-shot pruning baselines
across various sparsity ratios, achieving up to 2.21%, 11.43%, 7.04%, and 4.81%
higher scores on the commonsense reasoning, reading comprehension, MMLU, and
BBH benchmarks, respectively.
- Abstract(参考訳): LLM(Large Language Models)の顕著な成功にもかかわらず、大規模なサイズは、特にリソース制約のあるハードウェアにおいて、重大なデプロイメント上の課題を生じさせる。
既存のLLM圧縮手法は量子化に重点を置いているが、トレーニングベースのアプローチやデータ収集のコストが高いため、プルーニングは探索されていない。
単発プルーニング法は, コスト効率が高く, データフリーであるが, LLMプルーニングでは主流となっているが, 構造化プルーニング条件下での性能低下を招いた。
本研究では,コンプレッソと呼ばれるLLMの構造解析のための新しいパラダイムを提案する。
提案手法は,資源効率の高いプルーニングアルゴリズムとLLM自体の協調により,学習過程における最適プルーニング決定を学習する。
Compressoは、命令チューニングプロセス中にローランド適応(LoRA)を$L_0$正規化することによる、高価なトレーニングコストとデータ収集の課題に対処する。
そして、LLMとプルーニングアルゴリズムの協調を促進する共同プロンプトを導入して、プルーニングアルゴリズムをさらに強化し、全体的な性能を大幅に向上させる。
この結果、コンプレッソはLLaMA-7Bを5.4Bに引き上げ、オリジナルの性能を維持し、LLaMA-7Bを2.62%上回った。
広範囲な実験により、compressoは様々なスパース率で1ショットのプルーニングベースラインを大きく上回り、2.21%、11.43%、7.04%、および4.81%の共通意味推論、読解理解、mmlu、bbhベンチマークをそれぞれ上回った。
関連論文リスト
- BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - CAMBranch: Contrastive Learning with Augmented MILPs for Branching [5.216027167816416]
本稿では,従来のMILPから限られた専門家データに可変シフトを適用することで,AMILP(Augmented MILP)を生成するフレームワークを提案する。
結果は、完全なデータセットの10%しかトレーニングされていないCAMBranchが、優れたパフォーマンスを示していることを示している。
論文 参考訳(メタデータ) (2024-02-06T02:47:16Z) - Mixed Distillation Helps Smaller Language Model Better Reasoning [27.934081882868902]
本稿では,大規模言語モデル (LLM) におけるプログラム・オブ・シント (PoT) とチェーン・オブ・シント (CoT) の強みを生かした混合蒸留 (MD) フレームワークを紹介する。
実験の結果, MDは, 様々なタスクにおいて, より小さなモデルのシングルパスとマルチパス推論能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-17T14:28:28Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured
Pruning [57.12877119005303]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for
Pruning LLMs to High Sparsity [81.61101014156924]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。
本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。
OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文 参考訳(メタデータ) (2023-10-08T14:22:58Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [95.42228675690797]
我々は,比較的単純で広く疑問視される指標であるパープレキシティに依存する既存のSoTA圧縮手法の有効性を再評価する。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。