Fugu-MT 論文翻訳(概要): Compressing LLMs: The Truth is Rarely Pure and Never Simple

論文の概要: Compressing LLMs: The Truth is Rarely Pure and Never Simple

arxiv url: http://arxiv.org/abs/2310.01382v1
Date: Mon, 2 Oct 2023 17:42:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 20:32:36.740931
Title: Compressing LLMs: The Truth is Rarely Pure and Never Simple
Title（参考訳）: LLMを圧縮する:真実は極めて純粋でシンプルではない
Authors: Ajay Jaiswal, Zhe Gan, Xianzhi Du, Bowen Zhang, Zhangyang Wang, Yinfei Yang
Abstract要約: 我々は,比較的単純で広く疑問視される指標であるパープレキシティに依存する既存のSoTA圧縮手法の有効性を再評価する。 LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
参考スコア（独自算出の注目度）: 95.42228675690797
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite their remarkable achievements, modern Large Language Models (LLMs) encounter exorbitant computational and memory footprints. Recently, several works have shown significant success in training-free and data-free compression (pruning and quantization) of LLMs achieving 50-60% sparsity and reducing the bit-width down to 3 or 4 bits per weight, with negligible perplexity degradation over the uncompressed baseline. As recent research efforts are focused on developing increasingly sophisticated compression methods, our work takes a step back, and re-evaluates the effectiveness of existing SoTA compression methods, which rely on a fairly simple and widely questioned metric, perplexity (even for dense LLMs). We introduce Knowledge-Intensive Compressed LLM BenchmarK (LLM-KICK), a collection of carefully-curated tasks to re-define the evaluation protocol for compressed LLMs, which have significant alignment with their dense counterparts, and perplexity fail to capture subtle change in their true capabilities. LLM-KICK unveils many favorable merits and unfortunate plights of current SoTA compression methods: all pruning methods suffer significant performance degradation, sometimes at trivial sparsity ratios (e.g., 25-30%), and fail for N:M sparsity on knowledge-intensive tasks; current quantization methods are more successful than pruning; yet, pruned LLMs even at $\geq 50$% sparsity are robust in-context retrieval and summarization systems; among others. LLM-KICK is designed to holistically access compressed LLMs' ability for language understanding, reasoning, generation, in-context retrieval, in-context summarization, etc. We hope our study can foster the development of better LLM compression methods. All our related codes are planed to be open-sourced.
Abstract（参考訳）: 彼らの顕著な業績にもかかわらず、現代のLarge Language Models (LLMs) は計算量とメモリフットプリントに遭遇する。近年, LLMのトレーニングフリー・データフリー圧縮(プルーニングと量子化)において, 50～60%の幅を実現し, ビット幅を3～4ビットに減らし, 圧縮されていないベースライン上での非無視的なパープレキシティ劣化を実現している。最近の研究がますます高度な圧縮手法の開発に力を入れている中、我々の研究は一歩後退し、非常に単純で広く疑問視されている(密集したllmであっても)パープレキシティーに依存する既存のsoma圧縮手法の有効性を再評価しています。本稿では, 圧縮LDMの評価プロトコルを再定義する精巧なタスクの集合であるLLM-KICK(Knowledge-Intensive Compressed LLM BenchmarK)を紹介する。 LLM-KICKは、現在のSoTA圧縮手法の利点や不運な点を多数明らかにしている: 全てのプルーニング手法は、時に自明なスパーシティ比(例えば25-30%)で大幅な性能劣化を被り、知識集約的なタスクにおいてN:Mのスパーシリティに失敗する; 現在の量子化手法はプルーニングよりも成功している; しかし、$\geq 50$%のプルーニング LLMは、コンテキスト内検索と要約システムに堅牢である。 LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。より優れたLCM圧縮法の開発を促進することを願っている。関連コードはすべてオープンソースになる予定です。

関連論文リスト

Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
Lossless Compression of Large Language Model-Generated Text via Next-Token Prediction [9.302754209202607]
大規模言語モデル(LLM)は、ドメインにまたがってデプロイされ、利用され続けている。 LLM生成データの圧縮は、従来の人間や機械生成のコンテンツと比較して、独特な課題を示す。また,LLMに基づく予測手法は,Gzipで達成した3倍の圧縮速度をはるかに上回る20倍の圧縮速度を達成することを示す。
論文参考訳（メタデータ） (2025-05-07T17:42:35Z)
The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve? [35.74365188072962]
本稿では,LLMの最近の進歩として,検索強化生成,多段階推論,外部ツール,計算表現性について概説する。本稿では,与えられたLLMとタスクに対して,元のLLMと同じ性能を生み出すことのできる,より小さなLLMが存在することを示唆する抽選LLM仮説を提案する。
論文参考訳（メタデータ） (2025-02-24T15:39:35Z)
Less is More: DocString Compression in Code Generation [32.35654005267307]
LLM(Large Language Models)は、関数/メソッドシグネチャとDocStringを実行可能なコードに変換するために使用される。プロンプト圧縮の最近の進歩は自然言語処理(NLP)において有望な結果を示しているが、コード生成への適用性はまだ不明である。コード生成のためのDocString圧縮専用の新しい圧縮手法であるShortenDocを提案する。
論文参考訳（メタデータ） (2024-10-30T08:17:10Z)
LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment [36.958867918858296]
大規模言語モデル (LLM) は、その強力な知能を実証しているが、計算とストレージの需要が高いため、実用化は困難である。本稿ではLLMCBench(Large Language Model Compression Benchmark)を提案する。
論文参考訳（メタデータ） (2024-10-28T14:45:01Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities [30.1331670544648]
大規模言語モデル(LLM)はパラメトリックな知識によって制限され、知識集約的なタスクに幻覚をもたらす。我々は、RAGの検索後のプロセスで機能するエンドツーエンドの抽出・再構成パラダイムである$textitRefiner$を提案する。
論文参考訳（メタデータ） (2024-06-17T09:25:10Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。 LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。本稿では,LLMの研究への3つの貢献について述べる。
論文参考訳（メタデータ） (2023-04-25T01:47:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。