論文の概要: Beware of Calibration Data for Pruning Large Language Models
- arxiv url: http://arxiv.org/abs/2410.17711v1
- Date: Wed, 23 Oct 2024 09:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:57:32.629629
- Title: Beware of Calibration Data for Pruning Large Language Models
- Title(参考訳): 大規模言語モデルのキャリブレーションデータに留意すること
- Authors: Yixin Ji, Yang Xiang, Juntao Li, Qingrong Xia, Ping Li, Xinyu Duan, Zhefeng Wang, Min Zhang,
- Abstract要約: トレーニング後のプルーニングは、リソース集約的な反復的なトレーニングを必要としない有望な方法である。
キャリブレーションデータの効果は, 先進的な刈り取り戦略を設計するよりもさらに価値が高いことを示す。
予備調査では、トレーニングデータに類似したキャリブレーションデータを使用することで、より良いパフォーマンスが得られることも明らかにした。
- 参考スコア(独自算出の注目度): 41.1689082093302
- License:
- Abstract: As large language models (LLMs) are widely applied across various fields, model compression has become increasingly crucial for reducing costs and improving inference efficiency. Post-training pruning is a promising method that does not require resource-intensive iterative training and only needs a small amount of calibration data to assess the importance of parameters. Previous research has primarily focused on designing advanced pruning methods, while different calibration data's impact on pruning performance still lacks systematical exploration. We fill this blank and surprisingly observe that the effects of calibration data even value more than designing advanced pruning strategies, especially for high sparsity. Our preliminary exploration also discloses that using calibration data similar to the training data can yield better performance. As pre-training data is usually inaccessible for advanced LLMs, we further provide a self-generating calibration data synthesis strategy to construct feasible calibration data. We conduct experiments on the recent strong open-source LLMs (e.g., DCLM, and LLaMA-3), and the results show that the proposed method outperforms commonly used calibration data and can effectively enhance strong pruning methods (e.g., Wanda, OWL).
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な分野に広く適用されているため、コスト削減と推論効率の向上のためにモデル圧縮がますます重要になっている。
ポストトレーニングプルーニングは、リソース集約的な反復訓練を必要としない有望な手法であり、パラメータの重要性を評価するために、少量の校正データしか必要としない。
従来の研究は主に先進的な刈り込み法の設計に重点を置いてきたが、異なるキャリブレーションデータによる刈り出し性能への影響は体系的な探索に欠けていた。
この空白を埋めて、特にスパシティの高いプルーニング戦略を設計するよりも、キャリブレーションデータの効果の方がさらに価値が高いことを驚くほど観察する。
予備調査では、トレーニングデータに類似したキャリブレーションデータを使用することで、より良いパフォーマンスが得られることも明らかにした。
事前学習データは通常、高度なLCMにはアクセスできないため、我々はさらに自己生成型キャリブレーションデータ合成戦略を提供し、実現可能なキャリブレーションデータを構築する。
本稿では,最近の強力なオープンソース LLM (eg , DCLM, LLaMA-3) の実験を行い, 提案手法が一般的に使用されているキャリブレーションデータより優れ, 強力な刈り取り手法(eg , Wanda, OWL) を効果的に向上できることを示す。
関連論文リスト
- Fill In The Gaps: Model Calibration and Generalization with Synthetic Data [2.89287673224661]
本稿では,合成データを精度良く組み込んだキャリブレーション手法を提案する。
本稿では,予測校正誤差(ECE)をPAC学習フレームワークを用いて導出する。
平均34%の精度, 33%のECE低下を認めた。
論文 参考訳(メタデータ) (2024-10-07T23:06:42Z) - Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models [0.0]
大規模言語モデル(LLM)は強力な能力を提供するが、かなりの計算コストがかかる。
本研究では,LLaMA-2-7Bモデルに対する圧縮法の影響について検討した。
SparseGPTとWandaは50%の間隔でも難易度を保っているが,下流タスクでは著しく低下している。
論文 参考訳(メタデータ) (2024-09-17T14:34:11Z) - AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。
我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - On the Impact of Calibration Data in Post-training Quantization and Pruning [36.1039389951318]
量子化とプルーニングは、ニューラルネットワークの圧縮の基礎となる。
モデル圧縮法におけるキャリブレーションデータの影響に関する実験的検討を行った。
論文 参考訳(メタデータ) (2023-11-16T10:30:00Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - From calibration to parameter learning: Harnessing the scaling effects
of big data in geoscientific modeling [2.9897531698031403]
本稿では,入力とパラメータのグローバルマッピングを効率的に学習する,微分可能なパラメータ学習フレームワークを提案する。
トレーニングデータが増加するにつれて、dPLはより良いパフォーマンス、より物理的コヒーレンス、より良い一般化性を達成する。
土壌の水分と流水から学んだ例を示し,dPLが既存の進化的・地域的手法を著しく上回った。
論文 参考訳(メタデータ) (2020-07-30T21:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。