論文の概要: Beware of Calibration Data for Pruning Large Language Models
- arxiv url: http://arxiv.org/abs/2410.17711v2
- Date: Sun, 29 Jun 2025 07:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:38.550894
- Title: Beware of Calibration Data for Pruning Large Language Models
- Title(参考訳): 大規模言語モデルのキャリブレーションデータに留意すること
- Authors: Yixin Ji, Yang Xiang, Juntao Li, Qingrong Xia, Ping Li, Xinyu Duan, Zhefeng Wang, Min Zhang,
- Abstract要約: トレーニング後のプルーニングは、リソース集約的な反復的なトレーニングを必要としない有望な方法である。
キャリブレーションデータは、特に高頻度で訓練後の刈り取りにも重要である。
キャリブレーションデータ構築のための自己生成型キャリブレーションデータ合成戦略を提案する。
- 参考スコア(独自算出の注目度): 41.1689082093302
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As large language models (LLMs) are widely applied across various fields, model compression has become increasingly crucial for reducing costs and improving inference efficiency. Post-training pruning is a promising method that does not require resource-intensive iterative training and only needs a small amount of calibration data to assess the importance of parameters. Recent research has enhanced post-training pruning from different aspects but few of them systematically explore the effects of calibration data, and it is unclear if there exist better calibration data construction strategies. We fill this blank and surprisingly observe that calibration data is also crucial to post-training pruning, especially for high sparsity. Through controlled experiments on important influence factors of calibration data, including the pruning settings, the amount of data, and its similarity with pre-training data, we observe that a small size of data is adequate, and more similar data to its pre-training stage can yield better performance. As pre-training data is usually inaccessible for advanced LLMs, we further provide a self-generating calibration data synthesis strategy to construct feasible calibration data. Experimental results on recent strong open-source LLMs (e.g., DCLM, and LLaMA-3) show that the proposed strategy can enhance the performance of strong pruning methods (e.g., Wanda, DSnoT, OWL) by a large margin (up to $2.68\%$). Code is available at https://github.com/Dereck0602/calibration_data.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な分野に広く適用されているため、コスト削減と推論効率の向上のためにモデル圧縮がますます重要になっている。
ポストトレーニングプルーニングは、リソース集約的な反復訓練を必要としない有望な手法であり、パラメータの重要性を評価するために、少量の校正データしか必要としない。
最近の研究は、異なる側面から訓練後のプルーニングを強化しているが、キャリブレーションデータの効果を体系的に検討する研究はほとんどなく、キャリブレーションデータ構築戦略が優れているかどうかは不明である。
この空白を埋めて、キャリブレーションデータが訓練後のプルーニング、特に高頻度のプルーニングにも重要であることを驚くほど観察する。
キャリブレーションデータの重要な影響要因であるプルーニング設定、データの量、および事前学習データとの類似性に関する制御実験により、データの小さなサイズが適切であり、事前学習段階とより類似したデータにより性能が向上することがわかった。
事前学習データは通常、高度なLCMにはアクセスできないため、我々はさらに自己生成型キャリブレーションデータ合成戦略を提供し、実現可能なキャリブレーションデータを構築する。
近年の強力なオープンソース LLM (eg , DCLM, LLaMA-3) の実験結果から, 提案手法は, 強い刈り出し法 (eg , Wanda, DSnoT, OWL) を大きなマージン (最大2.68 %$) で性能向上できることを示した。
コードはhttps://github.com/Dereck0602/calibration_dataで入手できる。
関連論文リスト
- What Really Matters for Learning-based LiDAR-Camera Calibration [50.2608502974106]
本稿では,学習に基づくLiDAR-Cameraキャリブレーションの開発を再考する。
我々は、広く使われているデータ生成パイプラインによる回帰ベースの手法の限界を識別する。
また,入力データ形式と前処理操作がネットワーク性能に与える影響についても検討する。
論文 参考訳(メタデータ) (2025-01-28T14:12:32Z) - Curriculum-style Data Augmentation for LLM-based Metaphor Detection [7.4594050203808395]
オープンソースLLMの微調整によるメタファ検出手法を提案する。
本手法は,すべてのベースラインにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T02:05:21Z) - Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
本研究では,大規模言語モデル (LLM) を用いて予測モデルの事前分布を推定する手法を提案する。
本研究では,LLMがパラメータ分布を真に生成するかどうかを評価するとともに,文脈内学習と事前推論のためのモデル選択戦略を提案する。
その結果,LLMによる事前パラメータ分布は,低データ設定における非形式的先行よりも予測誤差を著しく低減することがわかった。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Fill In The Gaps: Model Calibration and Generalization with Synthetic Data [2.89287673224661]
本稿では,合成データを精度良く組み込んだキャリブレーション手法を提案する。
本稿では,予測校正誤差(ECE)をPAC学習フレームワークを用いて導出する。
平均34%の精度, 33%のECE低下を認めた。
論文 参考訳(メタデータ) (2024-10-07T23:06:42Z) - Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models [0.0]
大規模言語モデル(LLM)は強力な能力を提供するが、かなりの計算コストがかかる。
本研究では,LLaMA-2-7Bモデルに対する圧縮法の影響について検討した。
SparseGPTとWandaは50%の間隔でも難易度を保っているが,下流タスクでは著しく低下している。
論文 参考訳(メタデータ) (2024-09-17T14:34:11Z) - AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。
我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - On the Impact of Calibration Data in Post-training Quantization and Pruning [36.1039389951318]
量子化とプルーニングは、ニューラルネットワークの圧縮の基礎となる。
モデル圧縮法におけるキャリブレーションデータの影響に関する実験的検討を行った。
論文 参考訳(メタデータ) (2023-11-16T10:30:00Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - From calibration to parameter learning: Harnessing the scaling effects
of big data in geoscientific modeling [2.9897531698031403]
本稿では,入力とパラメータのグローバルマッピングを効率的に学習する,微分可能なパラメータ学習フレームワークを提案する。
トレーニングデータが増加するにつれて、dPLはより良いパフォーマンス、より物理的コヒーレンス、より良い一般化性を達成する。
土壌の水分と流水から学んだ例を示し,dPLが既存の進化的・地域的手法を著しく上回った。
論文 参考訳(メタデータ) (2020-07-30T21:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。