論文の概要: Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning
- arxiv url: http://arxiv.org/abs/2410.07461v1
- Date: Wed, 9 Oct 2024 22:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:56:23.236336
- Title: Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning
- Title(参考訳): C4データセットはプルーニングに最適か? : LLMプルーニングの校正データの検討
- Authors: Abhinav Bandari, Lu Yin, Cheng-Yu Hsieh, Ajay Kumar Jaiswal, Tianlong Chen, Li Shen, Ranjay Krishna, Shiwei Liu,
- Abstract要約: LLMプルーニングのアプローチは、プルーニングスコアを計算するためのキャリブレーションデータとして、C4データセットに依存している。
本研究では, LLMプルーニングにおけるキャリブレーションデータの選択を, 幅広いデータセットで評価する。
私たちの結果は、微妙でしばしば予期せぬ発見もいくつか見つけました。
- 参考スコア(独自算出の注目度): 56.795078085234195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Network pruning has emerged as a potential solution to make LLMs cheaper to deploy. However, existing LLM pruning approaches universally rely on the C4 dataset as the calibration data for calculating pruning scores, leaving its optimality unexplored. In this study, we evaluate the choice of calibration data on LLM pruning, across a wide range of datasets that are most commonly used in LLM training and evaluation, including four pertaining datasets as well as three categories of downstream tasks encompassing nine datasets. Each downstream dataset is prompted with In-Context Learning (ICL) and Chain-of-Thought (CoT), respectively. Besides the already intriguing observation that the choice of calibration data significantly impacts the performance of pruned LLMs, our results also uncover several subtle and often unexpected findings, summarized as follows: (1) C4 is not the optimal choice for LLM pruning, even among commonly used pre-training datasets; (2) arithmetic datasets, when used as calibration data, performs on par or even better than pre-training datasets; (3) pruning with downstream datasets does not necessarily help the corresponding downstream task, compared to pre-training data; (4) ICL is widely beneficial to all data categories, whereas CoT is only useful on certain tasks. Our findings shed light on the importance of carefully selecting calibration data for LLM pruning and pave the way for more efficient deployment of these powerful models in real-world applications. We release our code at: https://github.com/abx393/llm-pruning-calibration-data.
- Abstract(参考訳): LLMのデプロイを安くするための潜在的なソリューションとして、ネットワークプルーニングが登場した。
しかし、既存のLCMプルーニングアプローチは、プルーニングスコアを計算するためのキャリブレーションデータとしてC4データセットを普遍的に頼りにしており、その最適性は未探索のままである。
本研究では,9つのデータセットを含む3つの下流タスクのカテゴリを含む,LLMトレーニングおよび評価において最もよく使用される幅広いデータセットを対象に,LLMプルーニングにおけるキャリブレーションデータの選択を評価した。
各下流データセットは、それぞれICL(In-Context Learning)とCoT(Chain-of-Thought)でトリガーされる。
キャリブレーションデータの選択がプルーニングLLMの性能に著しく影響を及ぼすという、すでに興味深い観察に加えて、我々は、(1)C4はトレーニング前データセットの中でもLLMプルーニングの最適選択ではない、(2)キャリブレーションデータとして使われる場合、プリトレーニング前のデータセットよりも同等かそれ以上の処理を行う、(3)下流データセットによるプルーニングは、事前トレーニングデータと比較して、対応するダウンストリームタスクに役立つとは限らない、(4)ICLは、すべてのデータカテゴリに対して広く有用であるが、CoTは特定のタスクでのみ有用である、という、いくつかの微妙でしばしば予期せぬ結果も明らかにした。
本研究は,LLM刈り込みにおけるキャリブレーションデータの選択を慎重に行うことの重要性に注目し,これらの強力なモデルを現実のアプリケーションにより効率的に展開する方法について検討した。
https://github.com/abx393/llm-pruning-calibration-data。
関連論文リスト
- Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-15T19:36:15Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Automated Data Curation for Robust Language Model Fine-Tuning [13.8454385440986]
本稿では,データセットのチューニングを行うための自動データキュレーションパイプライン CLEAR を提案する。
CLEARは、どのトレーニングデータが低品質であるかを見積もる。
実験の結果、CLEARは多くのデータセットやモデルにまたがって微調整されたモデルの性能を一貫して改善していることがわかった。
論文 参考訳(メタデータ) (2024-03-19T14:44:45Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。