論文の概要: Divergent Token Metrics: Measuring degradation to prune away LLM
components -- and optimize quantization
- arxiv url: http://arxiv.org/abs/2311.01544v1
- Date: Thu, 2 Nov 2023 18:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 15:59:10.567844
- Title: Divergent Token Metrics: Measuring degradation to prune away LLM
components -- and optimize quantization
- Title(参考訳): Divergent Token Metrics: LLMコンポーネントを起点とする劣化の測定と量子化の最適化
- Authors: Bj\"orn Deiseroth, Max Meuer, Nikolas Gritsch, Constantin Eichenberg,
Patrick Schramowski, Matthias A{\ss}enmacher, Kristian Kersting
- Abstract要約: 本研究は、圧縮された大言語モデルを評価するための新しいアプローチであるDTM(Didergent Token Metrics)を紹介する。
DTMはトークンの発散に注目し、モデル圧縮の微妙さに関する深い洞察を提供する。
以上の結果から,テキスト生成品質を損なうことなく,精度と空間性が著しく向上できることが示唆された。
- 参考スコア(独自算出の注目度): 23.12654869239794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have reshaped natural language processing with
their impressive capabilities. Their ever-increasing size, however, raised
concerns about their effective deployment and the need for LLM compressions.
This study introduces the Divergent Token metrics (DTMs), a novel approach for
assessing compressed LLMs, addressing the limitations of traditional measures
like perplexity that fail to accurately reflect text generation quality. DTMs
focus on token divergence, providing deeper insights into the subtleties of
model compression. Our results indicate that significant levels of precision
and sparsity can be achieved without compromising text generation quality.
Moreover, DTMs offers a more precise evaluation of each component's impact
individually. Utilizing the First Divergent Token metric (FDTM) in model
sparsification reveals that nearly 20% of all components can be pruned over
90%. In terms of quantization, the FDTM suggests that over 80% of parameters
can be straightforwardly transformed to int8 without special outlier
management.
- Abstract(参考訳): 大きな言語モデル(LLM)は、その印象的な能力で自然言語処理を再構築した。
しかし、その規模は増え続けており、効果的デプロイとLLM圧縮の必要性への懸念が高まった。
本研究は, テキスト生成品質を正確に反映できない難易度などの従来の尺度の限界に対処する, 圧縮LDMの新たな評価手法であるDTMを紹介した。
DTMはトークンの発散に注目し、モデル圧縮の微妙さに関する深い洞察を提供する。
以上の結果から,テキスト生成品質を損なうことなく高い精度とスパーシティを実現することができた。
さらに、DTMは個々のコンポーネントへの影響をより正確に評価する。
モデルスペーシフィケーションにFDTM(First Divergent Token metric)を用いることで、すべてのコンポーネントの20%近くを90%以上にわたって刈り取ることができることが明らかになった。
量子化に関しては、FDTMはパラメータの80%以上を特別な外部管理なしで直接int8に変換することを示唆している。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。
MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。
例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models [0.0]
大規模言語モデル(LLM)は強力な能力を提供するが、かなりの計算コストがかかる。
本研究では,LLaMA-2-7Bモデルに対する圧縮法の影響について検討した。
SparseGPTとWandaは50%の間隔でも難易度を保っているが,下流タスクでは著しく低下している。
論文 参考訳(メタデータ) (2024-09-17T14:34:11Z) - MLAE: Masked LoRA Experts for Visual Parameter-Efficient Fine-Tuning [45.93128932828256]
Masked LoRA Experts (MLAE) は、視覚的PEFTにマスキングの概念を適用する革新的なアプローチである。
本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。
MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で,新しい最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T08:57:23Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。