Fugu-MT 論文翻訳(概要): Divergent Token Metrics: Measuring degradation to prune away LLM components -- and optimize quantization

論文の概要: Divergent Token Metrics: Measuring degradation to prune away LLM components -- and optimize quantization

arxiv url: http://arxiv.org/abs/2311.01544v3
Date: Wed, 3 Apr 2024 11:49:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 22:56:57.432307
Title: Divergent Token Metrics: Measuring degradation to prune away LLM components -- and optimize quantization
Title（参考訳）: Divergent Token Metrics: LLMコンポーネントを起点とする劣化の測定 -- と量子化の最適化
Authors: Björn Deiseroth, Max Meuer, Nikolas Gritsch, Constantin Eichenberg, Patrick Schramowski, Matthias Aßenmacher, Kristian Kersting,
Abstract要約: 本研究では、圧縮された大言語モデル(LLM)を評価するための新しいアプローチであるDTM(Didergent Token Metrics)を紹介する。 DTMはトークンの発散を測定し、モデル圧縮の微妙さについて深い洞察を与える。量子化では、FDTMは、パラメータの80%以上が特別な管理なしにint8にナビゲート変換可能であることを示唆している。
参考スコア（独自算出の注目度）: 21.608651876495596
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have reshaped natural language processing with their impressive capabilities. However, their ever-increasing size has raised concerns about their effective deployment and the need for LLM compression. This study introduces the Divergent Token Metrics (DTMs), a novel approach to assessing compressed LLMs, addressing the limitations of traditional perplexity or accuracy measures that fail to accurately reflect text generation quality. DTMs measure token divergences that allow deeper insights into the subtleties of model compression, in particular, when evaluating components' impacts individually. Utilizing the First Divergent Token Metric (FDTM) in model sparsification reveals that 25% of all attention components can be pruned beyond 90% on the Llama-2 model family, still keeping SOTA performance. For quantization, FDTM suggests that more than 80% of parameters can be naively transformed to int8 without special outlier management. These evaluations indicate the necessity of choosing appropriate compressions for parameters individually -- and that FDTM can identify those -- while standard metrics result in deteriorated outcomes.
Abstract（参考訳）: 大きな言語モデル(LLM)は、その印象的な能力で自然言語処理を再構築した。しかし、その拡大を続けるサイズは、効率的なデプロイメントとLLM圧縮の必要性を懸念している。本研究は, テキスト生成品質を正確に反映できない従来の難易度や精度の限界に対処する, 圧縮LDMの新たな評価手法であるDTM(Dimpergent Token Metrics)を紹介する。 DTMは、コンポーネントの影響を個別に評価する際に、特にモデル圧縮の微妙さに関する深い洞察を可能にするトークンの発散を測定する。モデルスカラー化にFDTM(First Divergent Token Metric)を用いることで、すべての注目コンポーネントの25%がLlama-2モデルファミリで90%を超え、SOTAのパフォーマンスを維持していることが明らかになった。量子化では、FDTMは、パラメータの80%以上が特別な外れ値の管理なしに、int8にナビゲート変換可能であることを示唆している。これらの評価は、パラメータを個別に適切な圧縮を選択する必要があること、FDTMがそれらを識別できること、そして標準メトリクスが劣化した結果であることを示している。

関連論文リスト

MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらすマルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文参考訳（メタデータ） (2026-01-03T14:58:52Z)
Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs [2.9506547907696006]
我々は,パフォーマンスへの影響を最小限に抑えつつ,記憶を小さくするプライバシー保護ファインチューニング技術であるRandomized Masked Fine-Tuning (RMFT)を紹介した。その結果,RMFTの総抽出速度は80.81%低下し,抽出速度は80.17%低下した。
論文参考訳（メタデータ） (2025-12-02T23:46:42Z)
Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文参考訳（メタデータ） (2025-04-05T17:45:42Z)
Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文参考訳（メタデータ） (2025-02-20T23:18:39Z)
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文参考訳（メタデータ） (2024-11-17T01:16:37Z)
MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。 MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文参考訳（メタデータ） (2024-10-08T18:09:38Z)
Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models [0.0]
大規模言語モデル(LLM)は強力な能力を提供するが、かなりの計算コストがかかる。本研究では,LLaMA-2-7Bモデルに対する圧縮法の影響について検討した。 SparseGPTとWandaは50%の間隔でも難易度を保っているが,下流タスクでは著しく低下している。
論文参考訳（メタデータ） (2024-09-17T14:34:11Z)
MLAE: Masked LoRA Experts for Visual Parameter-Efficient Fine-Tuning [45.93128932828256]
Masked LoRA Experts (MLAE) は、視覚的PEFTにマスキングの概念を適用する革新的なアプローチである。本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。 MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で,新しい最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2024-05-29T08:57:23Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (2024-01-29T17:17:42Z)
Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文参考訳（メタデータ） (2022-02-06T20:07:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。