Fugu-MT 論文翻訳(概要): Compressing LLMs: The Truth is Rarely Pure and Never Simple

論文の概要: Compressing LLMs: The Truth is Rarely Pure and Never Simple

arxiv url: http://arxiv.org/abs/2310.01382v2
Date: Sun, 17 Mar 2024 00:38:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 03:42:41.733777
Title: Compressing LLMs: The Truth is Rarely Pure and Never Simple
Title（参考訳）: LLMを圧縮する:真実は極めて純粋でシンプルではない
Authors: Ajay Jaiswal, Zhe Gan, Xianzhi Du, Bowen Zhang, Zhangyang Wang, Yinfei Yang,
Abstract要約: Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。 LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。 LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
参考スコア（独自算出の注目度）: 90.05366363633568
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite their remarkable achievements, modern Large Language Models (LLMs) face exorbitant computational and memory footprints. Recently, several works have shown significant success in training-free and data-free compression (pruning and quantization) of LLMs that achieve 50 - 60% sparsity and reduce the bit width to 3 or 4 bits per weight, with negligible degradation of perplexity over the uncompressed baseline. As recent research efforts are focused on developing increasingly sophisticated compression methods, our work takes a step back and re-evaluates the effectiveness of existing SoTA compression methods, which rely on a fairly simple and widely questioned metric, perplexity (even for dense LLMs). We introduce Knowledge-Intensive Compressed LLM BenchmarK (LLM-KICK), a collection of carefully curated tasks to redefine the evaluation protocol for compressed LLMs, which have significant alignment with their dense counterparts and perplexity fail to capture subtle change in their true capabilities. LLM-KICK unveils many favorable merits and unfortunate plights of current SoTA compression methods: all pruning methods suffer significant performance degradation, sometimes at trivial sparsity ratios (e.g., 25-30%), and fail for N:M sparsity in knowledge-intensive tasks; current quantization methods are more successful than pruning; yet, pruned LLMs even at $\geq 50$% sparsity are robust in-context retrieval and summarization systems; among others. LLM-KICK is designed to holistically access compressed LLMs' ability for language understanding, reasoning, generation, in-context retrieval, in-context summarization, etc. We hope our study can foster the development of better LLM compression methods. The reproduced codes are available at https://github.com/VITA-Group/llm-kick.
Abstract（参考訳）: 彼らの顕著な業績にもかかわらず、現代のLarge Language Models (LLMs) は計算量とメモリフットプリントに直面する。近年, LLMのトレーニングフリー・データフリー圧縮(プルーニングと量子化)において, 50～60%の幅を実現し, ビット幅を3～4ビットに減らし, 圧縮されていないベースライン上でのパープレキシティの劣化を無視できることを示す研究がいくつか行われている。近年の研究では,高度な圧縮手法の開発に重点を置いているため,従来のSoTA圧縮手法の有効性を再評価する。本稿では, 圧縮LDMの評価プロトコルを再定義する, 精巧に調整されたタスクの集合であるLLM BenchmarK (LLM-KICK) を紹介する。 LLM-KICK は、現在の SoTA 圧縮手法の利点や不運な点を多数明らかにしている: 全てのプルーニング手法は、時として、ささいなスパーシティ比 (例: 25-30%) で大きなパフォーマンス劣化を被り、知識集約的なタスクにおいて N:M のスパーシリティに失敗する; 現在の量子化手法は、プルーニングよりも成功している; しかし、$\geq 50$% のプルーニング LLM は、コンテキスト内検索と要約システムに堅牢である。 LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。我々は,より優れたLCM圧縮手法の開発を促進することができることを願っている。再現されたコードはhttps://github.com/VITA-Group/llm-kick.comで入手できる。

関連論文リスト

The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve? [35.74365188072962]
本稿では,LLMの最近の進歩として,検索強化生成,多段階推論,外部ツール,計算表現性について概説する。本稿では,与えられたLLMとタスクに対して,元のLLMと同じ性能を生み出すことのできる,より小さなLLMが存在することを示唆する抽選LLM仮説を提案する。
論文参考訳（メタデータ） (2025-02-24T15:39:35Z)
Less is More: DocString Compression in Code Generation [32.35654005267307]
LLM(Large Language Models)は、関数/メソッドシグネチャとDocStringを実行可能なコードに変換するために使用される。プロンプト圧縮の最近の進歩は自然言語処理(NLP)において有望な結果を示しているが、コード生成への適用性はまだ不明である。コード生成のためのDocString圧縮専用の新しい圧縮手法であるShortenDocを提案する。
論文参考訳（メタデータ） (2024-10-30T08:17:10Z)
LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment [36.958867918858296]
大規模言語モデル (LLM) は、その強力な知能を実証しているが、計算とストレージの需要が高いため、実用化は困難である。本稿ではLLMCBench(Large Language Model Compression Benchmark)を提案する。
論文参考訳（メタデータ） (2024-10-28T14:45:01Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities [30.1331670544648]
大規模言語モデル(LLM)はパラメトリックな知識によって制限され、知識集約的なタスクに幻覚をもたらす。我々は、RAGの検索後のプロセスで機能するエンドツーエンドの抽出・再構成パラダイムである$textitRefiner$を提案する。
論文参考訳（メタデータ） (2024-06-17T09:25:10Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。 LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。本稿では,LLMの研究への3つの貢献について述べる。
論文参考訳（メタデータ） (2023-04-25T01:47:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。