Fugu-MT 論文翻訳(概要): Divergent Token Metrics: Measuring degradation to prune away LLM components -- and optimize quantization

論文の概要: Divergent Token Metrics: Measuring degradation to prune away LLM components -- and optimize quantization

arxiv url: http://arxiv.org/abs/2311.01544v1
Date: Thu, 2 Nov 2023 18:55:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 15:59:10.567844
Title: Divergent Token Metrics: Measuring degradation to prune away LLM components -- and optimize quantization
Title（参考訳）: Divergent Token Metrics: LLMコンポーネントを起点とする劣化の測定と量子化の最適化
Authors: Bj\"orn Deiseroth, Max Meuer, Nikolas Gritsch, Constantin Eichenberg, Patrick Schramowski, Matthias A{\ss}enmacher, Kristian Kersting
Abstract要約: 本研究は、圧縮された大言語モデルを評価するための新しいアプローチであるDTM(Didergent Token Metrics)を紹介する。 DTMはトークンの発散に注目し、モデル圧縮の微妙さに関する深い洞察を提供する。以上の結果から,テキスト生成品質を損なうことなく,精度と空間性が著しく向上できることが示唆された。
参考スコア（独自算出の注目度）: 23.12654869239794
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have reshaped natural language processing with their impressive capabilities. Their ever-increasing size, however, raised concerns about their effective deployment and the need for LLM compressions. This study introduces the Divergent Token metrics (DTMs), a novel approach for assessing compressed LLMs, addressing the limitations of traditional measures like perplexity that fail to accurately reflect text generation quality. DTMs focus on token divergence, providing deeper insights into the subtleties of model compression. Our results indicate that significant levels of precision and sparsity can be achieved without compromising text generation quality. Moreover, DTMs offers a more precise evaluation of each component's impact individually. Utilizing the First Divergent Token metric (FDTM) in model sparsification reveals that nearly 20% of all components can be pruned over 90%. In terms of quantization, the FDTM suggests that over 80% of parameters can be straightforwardly transformed to int8 without special outlier management.
Abstract（参考訳）: 大きな言語モデル(LLM)は、その印象的な能力で自然言語処理を再構築した。しかし、その規模は増え続けており、効果的デプロイとLLM圧縮の必要性への懸念が高まった。本研究は, テキスト生成品質を正確に反映できない難易度などの従来の尺度の限界に対処する, 圧縮LDMの新たな評価手法であるDTMを紹介した。 DTMはトークンの発散に注目し、モデル圧縮の微妙さに関する深い洞察を提供する。以上の結果から,テキスト生成品質を損なうことなく高い精度とスパーシティを実現することができた。さらに、DTMは個々のコンポーネントへの影響をより正確に評価する。モデルスペーシフィケーションにFDTM(First Divergent Token metric)を用いることで、すべてのコンポーネントの20%近くを90%以上にわたって刈り取ることができることが明らかになった。量子化に関しては、FDTMはパラメータの80%以上を特別な外部管理なしで直接int8に変換することを示唆している。

関連論文リスト

Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文参考訳（メタデータ） (2025-04-05T17:45:42Z)
Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文参考訳（メタデータ） (2025-02-20T23:18:39Z)
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文参考訳（メタデータ） (2024-11-17T01:16:37Z)
MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。 MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文参考訳（メタデータ） (2024-10-08T18:09:38Z)
Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models [0.0]
大規模言語モデル(LLM)は強力な能力を提供するが、かなりの計算コストがかかる。本研究では,LLaMA-2-7Bモデルに対する圧縮法の影響について検討した。 SparseGPTとWandaは50%の間隔でも難易度を保っているが,下流タスクでは著しく低下している。
論文参考訳（メタデータ） (2024-09-17T14:34:11Z)
MLAE: Masked LoRA Experts for Visual Parameter-Efficient Fine-Tuning [45.93128932828256]
Masked LoRA Experts (MLAE) は、視覚的PEFTにマスキングの概念を適用する革新的なアプローチである。本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。 MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で,新しい最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2024-05-29T08:57:23Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (2024-01-29T17:17:42Z)
Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文参考訳（メタデータ） (2022-02-06T20:07:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。