Fugu-MT 論文翻訳(概要): How Does Calibration Data Affect the Post-training Pruning and Quantization of Large Language Models?

論文の概要: How Does Calibration Data Affect the Post-training Pruning and Quantization of Large Language Models?

arxiv url: http://arxiv.org/abs/2311.09755v1
Date: Thu, 16 Nov 2023 10:30:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 15:11:48.045999
Title: How Does Calibration Data Affect the Post-training Pruning and Quantization of Large Language Models?
Title（参考訳）: キャリブレーションデータは大規模言語モデルの学習後処理と量子化にどう影響するか?
Authors: Miles Williams, Nikolaos Aletras
Abstract要約: プルーニングと量子化は、ニューラルネットワークのモデル圧縮の基礎となる。モデル圧縮法におけるキャリブレーションデータの効果に関する実験的検討を行った。
参考スコア（独自算出の注目度）: 42.652021176354644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pruning and quantization form the foundation of model compression for neural networks, enabling efficient inference for large language models (LLMs). Recently, various quantization and pruning techniques have demonstrated state-of-the-art performance in a post-training setting. They rely upon calibration data, a small set of unlabeled examples, to generate layer activations. However, no prior work has systematically investigated how the calibration data impacts the effectiveness of model compression methods. In this paper, we present the first extensive empirical study on the effect of calibration data upon LLM performance. We trial a variety of pruning and quantization methods, tasks, models, and datasets. Surprisingly, we find substantial variations in downstream task performance, contrasting existing work that suggests a greater level of robustness to the calibration data. Finally, we make a series of recommendations for the effective use of calibration data in LLM quantization and pruning.
Abstract（参考訳）: プルーニングと量子化は、ニューラルネットワークのモデル圧縮の基礎を形成し、大きな言語モデル(LLM)の効率的な推論を可能にする。近年,様々な量子化と刈り取り技術が,訓練後における最先端のパフォーマンスを実証している。彼らはレイヤーアクティベーションを生成するために、ラベルなしサンプルの小さなセットであるキャリブレーションデータに依存している。しかし, キャリブレーションデータがモデル圧縮法の有効性に与える影響について, 事前調査は行われていない。本稿では,キャリブレーションデータによるllm性能への影響について,最初の大規模実験を行った。我々は、様々なプルーニングおよび量子化手法、タスク、モデル、データセットを試行する。驚くべきことに、キャリブレーションデータに対するロバスト性の向上を示唆する既存の作業とは対照的に、下流のタスクパフォーマンスにかなりの変化があります。最後に,LLM量子化およびプルーニングにおけるキャリブレーションデータの有効利用を推奨する。

関連論文リスト

Efficient Data Selection at Scale via Influence Distillation [53.03573620682107]
本稿では,データ選択のための数学的に修飾されたフレームワークであるインフルエンス蒸留を紹介する。対象分布に対する各試料の影響を蒸留することにより,トレーニングデータの選択に使用されるモデル固有の重みを割り当てる。実験の結果、蒸留の影響は最先端のパフォーマンスに匹敵し、最大3.5タイムの高速選択を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-25T09:08:00Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Beware of Calibration Data for Pruning Large Language Models [41.1689082093302]
トレーニング後のプルーニングは、リソース集約的な反復的なトレーニングを必要としない有望な方法である。キャリブレーションデータの効果は, 先進的な刈り取り戦略を設計するよりもさらに価値が高いことを示す。予備調査では、トレーニングデータに類似したキャリブレーションデータを使用することで、より良いパフォーマンスが得られることも明らかにした。
論文参考訳（メタデータ） (2024-10-23T09:36:21Z)
Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models [0.0]
大規模言語モデル(LLM)は強力な能力を提供するが、かなりの計算コストがかかる。本研究では,LLaMA-2-7Bモデルに対する圧縮法の影響について検討した。 SparseGPTとWandaは50%の間隔でも難易度を保っているが,下流タスクでは著しく低下している。
論文参考訳（メタデータ） (2024-09-17T14:34:11Z)
MetaAug: Meta-Data Augmentation for Post-Training Quantization [32.02377559968568]
トレーニング後の量子化(PTQ)は、完全な精度モデルを定量化するために、小さなキャリブレーションデータのみを必要とするため、大きな注目を集めている。本稿では,ポストトレーニング量子化の性能向上のためのメタラーニングに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-20T02:18:51Z)
On Task Performance and Model Calibration with Supervised and Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文参考訳（メタデータ） (2023-12-21T11:55:10Z)
CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文参考訳（メタデータ） (2023-09-14T16:16:40Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
Post-training Model Quantization Using GANs for Synthetic Data Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文参考訳（メタデータ） (2023-05-10T11:10:09Z)
On the Importance of Calibration in Semi-supervised Learning [13.859032326378188]
State-of-the-art (SOTA) の半教師付き学習(SSL)手法はラベル付きデータとラベルなしデータの混在を活用することに成功している。我々は、キャリブレーションを最適化し、標準ビジョンベンチマークでその有効性を実証する新しいSSLモデル群を紹介します。
論文参考訳（メタデータ） (2022-10-10T15:41:44Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。