論文の概要: Compressing LLMs: The Truth is Rarely Pure and Never Simple
- arxiv url: http://arxiv.org/abs/2310.01382v1
- Date: Mon, 2 Oct 2023 17:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:32:36.740931
- Title: Compressing LLMs: The Truth is Rarely Pure and Never Simple
- Title(参考訳): LLMを圧縮する:真実は極めて純粋でシンプルではない
- Authors: Ajay Jaiswal, Zhe Gan, Xianzhi Du, Bowen Zhang, Zhangyang Wang, Yinfei
Yang
- Abstract要約: 我々は,比較的単純で広く疑問視される指標であるパープレキシティに依存する既存のSoTA圧縮手法の有効性を再評価する。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
- 参考スコア(独自算出の注目度): 95.42228675690797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their remarkable achievements, modern Large Language Models (LLMs)
encounter exorbitant computational and memory footprints. Recently, several
works have shown significant success in training-free and data-free compression
(pruning and quantization) of LLMs achieving 50-60% sparsity and reducing the
bit-width down to 3 or 4 bits per weight, with negligible perplexity
degradation over the uncompressed baseline. As recent research efforts are
focused on developing increasingly sophisticated compression methods, our work
takes a step back, and re-evaluates the effectiveness of existing SoTA
compression methods, which rely on a fairly simple and widely questioned
metric, perplexity (even for dense LLMs). We introduce Knowledge-Intensive
Compressed LLM BenchmarK (LLM-KICK), a collection of carefully-curated tasks to
re-define the evaluation protocol for compressed LLMs, which have significant
alignment with their dense counterparts, and perplexity fail to capture subtle
change in their true capabilities. LLM-KICK unveils many favorable merits and
unfortunate plights of current SoTA compression methods: all pruning methods
suffer significant performance degradation, sometimes at trivial sparsity
ratios (e.g., 25-30%), and fail for N:M sparsity on knowledge-intensive tasks;
current quantization methods are more successful than pruning; yet, pruned LLMs
even at $\geq 50$% sparsity are robust in-context retrieval and summarization
systems; among others. LLM-KICK is designed to holistically access compressed
LLMs' ability for language understanding, reasoning, generation, in-context
retrieval, in-context summarization, etc. We hope our study can foster the
development of better LLM compression methods. All our related codes are planed
to be open-sourced.
- Abstract(参考訳): 彼らの顕著な業績にもかかわらず、現代のLarge Language Models (LLMs) は計算量とメモリフットプリントに遭遇する。
近年, LLMのトレーニングフリー・データフリー圧縮(プルーニングと量子化)において, 50~60%の幅を実現し, ビット幅を3~4ビットに減らし, 圧縮されていないベースライン上での非無視的なパープレキシティ劣化を実現している。
最近の研究がますます高度な圧縮手法の開発に力を入れている中、我々の研究は一歩後退し、非常に単純で広く疑問視されている(密集したllmであっても)パープレキシティーに依存する既存のsoma圧縮手法の有効性を再評価しています。
本稿では, 圧縮LDMの評価プロトコルを再定義する精巧なタスクの集合であるLLM-KICK(Knowledge-Intensive Compressed LLM BenchmarK)を紹介する。
LLM-KICKは、現在のSoTA圧縮手法の利点や不運な点を多数明らかにしている: 全てのプルーニング手法は、時に自明なスパーシティ比(例えば25-30%)で大幅な性能劣化を被り、知識集約的なタスクにおいてN:Mのスパーシリティに失敗する; 現在の量子化手法はプルーニングよりも成功している; しかし、$\geq 50$%のプルーニング LLMは、コンテキスト内検索と要約システムに堅牢である。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
より優れたLCM圧縮法の開発を促進することを願っている。
関連コードはすべてオープンソースになる予定です。
関連論文リスト
- Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language
Models [45.516380480706445]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Compresso: Structured Pruning with Collaborative Prompting Learns
Compact Large Language Models [15.471290825100075]
我々はCompressoと呼ばれる大規模言語モデルを構築するための新しいパラダイムを導入する。
提案手法は,資源効率の高いプルーニングアルゴリズムとLLM自体の協調により,学習過程における最適プルーニング決定を学習する。
実験では、Compressoは様々な空間比でワンショットプルーニングベースラインを著しく上回り、それぞれ2.21%、11.43%、7.04%、および4.81%のスコアをコモンセンス推論、読解理解、MMLU、BBHベンチマークで達成している。
論文 参考訳(メタデータ) (2023-10-08T05:16:28Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。
LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。
本稿では,LLMの研究への3つの貢献について述べる。
論文 参考訳(メタデータ) (2023-04-25T01:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。