論文の概要: Compressing LLMs: The Truth is Rarely Pure and Never Simple
- arxiv url: http://arxiv.org/abs/2310.01382v1
- Date: Mon, 2 Oct 2023 17:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:32:36.740931
- Title: Compressing LLMs: The Truth is Rarely Pure and Never Simple
- Title(参考訳): LLMを圧縮する:真実は極めて純粋でシンプルではない
- Authors: Ajay Jaiswal, Zhe Gan, Xianzhi Du, Bowen Zhang, Zhangyang Wang, Yinfei
Yang
- Abstract要約: 我々は,比較的単純で広く疑問視される指標であるパープレキシティに依存する既存のSoTA圧縮手法の有効性を再評価する。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
- 参考スコア(独自算出の注目度): 95.42228675690797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their remarkable achievements, modern Large Language Models (LLMs)
encounter exorbitant computational and memory footprints. Recently, several
works have shown significant success in training-free and data-free compression
(pruning and quantization) of LLMs achieving 50-60% sparsity and reducing the
bit-width down to 3 or 4 bits per weight, with negligible perplexity
degradation over the uncompressed baseline. As recent research efforts are
focused on developing increasingly sophisticated compression methods, our work
takes a step back, and re-evaluates the effectiveness of existing SoTA
compression methods, which rely on a fairly simple and widely questioned
metric, perplexity (even for dense LLMs). We introduce Knowledge-Intensive
Compressed LLM BenchmarK (LLM-KICK), a collection of carefully-curated tasks to
re-define the evaluation protocol for compressed LLMs, which have significant
alignment with their dense counterparts, and perplexity fail to capture subtle
change in their true capabilities. LLM-KICK unveils many favorable merits and
unfortunate plights of current SoTA compression methods: all pruning methods
suffer significant performance degradation, sometimes at trivial sparsity
ratios (e.g., 25-30%), and fail for N:M sparsity on knowledge-intensive tasks;
current quantization methods are more successful than pruning; yet, pruned LLMs
even at $\geq 50$% sparsity are robust in-context retrieval and summarization
systems; among others. LLM-KICK is designed to holistically access compressed
LLMs' ability for language understanding, reasoning, generation, in-context
retrieval, in-context summarization, etc. We hope our study can foster the
development of better LLM compression methods. All our related codes are planed
to be open-sourced.
- Abstract(参考訳): 彼らの顕著な業績にもかかわらず、現代のLarge Language Models (LLMs) は計算量とメモリフットプリントに遭遇する。
近年, LLMのトレーニングフリー・データフリー圧縮(プルーニングと量子化)において, 50~60%の幅を実現し, ビット幅を3~4ビットに減らし, 圧縮されていないベースライン上での非無視的なパープレキシティ劣化を実現している。
最近の研究がますます高度な圧縮手法の開発に力を入れている中、我々の研究は一歩後退し、非常に単純で広く疑問視されている(密集したllmであっても)パープレキシティーに依存する既存のsoma圧縮手法の有効性を再評価しています。
本稿では, 圧縮LDMの評価プロトコルを再定義する精巧なタスクの集合であるLLM-KICK(Knowledge-Intensive Compressed LLM BenchmarK)を紹介する。
LLM-KICKは、現在のSoTA圧縮手法の利点や不運な点を多数明らかにしている: 全てのプルーニング手法は、時に自明なスパーシティ比(例えば25-30%)で大幅な性能劣化を被り、知識集約的なタスクにおいてN:Mのスパーシリティに失敗する; 現在の量子化手法はプルーニングよりも成功している; しかし、$\geq 50$%のプルーニング LLMは、コンテキスト内検索と要約システムに堅牢である。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
より優れたLCM圧縮法の開発を促進することを願っている。
関連コードはすべてオープンソースになる予定です。
関連論文リスト
- Less is More: DocString Compression in Code Generation [32.35654005267307]
LLM(Large Language Models)は、関数/メソッドシグネチャとDocStringを実行可能なコードに変換するために使用される。
プロンプト圧縮の最近の進歩は自然言語処理(NLP)において有望な結果を示しているが、コード生成への適用性はまだ不明である。
コード生成のためのDocString圧縮専用の新しい圧縮手法であるShortenDocを提案する。
論文 参考訳(メタデータ) (2024-10-30T08:17:10Z) - LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment [36.958867918858296]
大規模言語モデル (LLM) は、その強力な知能を実証しているが、計算とストレージの需要が高いため、実用化は困難である。
本稿ではLLMCBench(Large Language Model Compression Benchmark)を提案する。
論文 参考訳(メタデータ) (2024-10-28T14:45:01Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities [30.1331670544648]
大規模言語モデル(LLM)はパラメトリックな知識によって制限され、知識集約的なタスクに幻覚をもたらす。
我々は、RAGの検索後のプロセスで機能するエンドツーエンドの抽出・再構成パラダイムである$textitRefiner$を提案する。
論文 参考訳(メタデータ) (2024-06-17T09:25:10Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。
LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。
本稿では,LLMの研究への3つの貢献について述べる。
論文 参考訳(メタデータ) (2023-04-25T01:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。