論文の概要: Divergent Token Metrics: Measuring degradation to prune away LLM
components -- and optimize quantization
- arxiv url: http://arxiv.org/abs/2311.01544v1
- Date: Thu, 2 Nov 2023 18:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 15:59:10.567844
- Title: Divergent Token Metrics: Measuring degradation to prune away LLM
components -- and optimize quantization
- Title(参考訳): Divergent Token Metrics: LLMコンポーネントを起点とする劣化の測定と量子化の最適化
- Authors: Bj\"orn Deiseroth, Max Meuer, Nikolas Gritsch, Constantin Eichenberg,
Patrick Schramowski, Matthias A{\ss}enmacher, Kristian Kersting
- Abstract要約: 本研究は、圧縮された大言語モデルを評価するための新しいアプローチであるDTM(Didergent Token Metrics)を紹介する。
DTMはトークンの発散に注目し、モデル圧縮の微妙さに関する深い洞察を提供する。
以上の結果から,テキスト生成品質を損なうことなく,精度と空間性が著しく向上できることが示唆された。
- 参考スコア(独自算出の注目度): 23.12654869239794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have reshaped natural language processing with
their impressive capabilities. Their ever-increasing size, however, raised
concerns about their effective deployment and the need for LLM compressions.
This study introduces the Divergent Token metrics (DTMs), a novel approach for
assessing compressed LLMs, addressing the limitations of traditional measures
like perplexity that fail to accurately reflect text generation quality. DTMs
focus on token divergence, providing deeper insights into the subtleties of
model compression. Our results indicate that significant levels of precision
and sparsity can be achieved without compromising text generation quality.
Moreover, DTMs offers a more precise evaluation of each component's impact
individually. Utilizing the First Divergent Token metric (FDTM) in model
sparsification reveals that nearly 20% of all components can be pruned over
90%. In terms of quantization, the FDTM suggests that over 80% of parameters
can be straightforwardly transformed to int8 without special outlier
management.
- Abstract(参考訳): 大きな言語モデル(LLM)は、その印象的な能力で自然言語処理を再構築した。
しかし、その規模は増え続けており、効果的デプロイとLLM圧縮の必要性への懸念が高まった。
本研究は, テキスト生成品質を正確に反映できない難易度などの従来の尺度の限界に対処する, 圧縮LDMの新たな評価手法であるDTMを紹介した。
DTMはトークンの発散に注目し、モデル圧縮の微妙さに関する深い洞察を提供する。
以上の結果から,テキスト生成品質を損なうことなく高い精度とスパーシティを実現することができた。
さらに、DTMは個々のコンポーネントへの影響をより正確に評価する。
モデルスペーシフィケーションにFDTM(First Divergent Token metric)を用いることで、すべてのコンポーネントの20%近くを90%以上にわたって刈り取ることができることが明らかになった。
量子化に関しては、FDTMはパラメータの80%以上を特別な外部管理なしで直接int8に変換することを示唆している。
関連論文リスト
- Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Learning Efficient Coding of Natural Images with Maximum Manifold
Capacity Representations [4.666056064419346]
効率的な符号化仮説は、感覚系の応答特性が入力の統計に適応していることを提案する。
エレガントではあるものの、情報理論の特性は実際的な設定や最適化の目的関数として使うのが難しいことで知られている。
ここでは、多様体の容量を直接最適化し、最大多様体容量表現(MMCR)が得られるという仮定を概説する。
論文 参考訳(メタデータ) (2023-03-06T17:26:30Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文 参考訳(メタデータ) (2022-10-08T00:36:00Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。