論文の概要: Entropy Law: The Story Behind Data Compression and LLM Performance
- arxiv url: http://arxiv.org/abs/2407.06645v2
- Date: Wed, 10 Jul 2024 01:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 11:41:07.299118
- Title: Entropy Law: The Story Behind Data Compression and LLM Performance
- Title(参考訳): エントロピー法:データ圧縮とLLMパフォーマンスの背後にある物語
- Authors: Mingjia Yin, Chuhan Wu, Yufei Wang, Hao Wang, Wei Guo, Yasheng Wang, Yong Liu, Ruiming Tang, Defu Lian, Enhong Chen,
- Abstract要約: モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
- 参考スコア(独自算出の注目度): 115.70395740286422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is the cornerstone of large language models (LLMs), but not all data is useful for model learning. Carefully selected data can better elicit the capabilities of LLMs with much less computational overhead. Most methods concentrate on evaluating the quality of individual samples in data selection, while the combinatorial effects among samples are neglected. Even if each sample is of perfect quality, their combinations may be suboptimal in teaching LLMs due to their intrinsic homogeneity or contradiction. In this paper, we aim to uncover the underlying relationships between LLM performance and data selection. Inspired by the information compression nature of LLMs, we uncover an ``entropy law'' that connects LLM performance with data compression ratio and first-epoch training loss, which reflect the information redundancy of a dataset and the mastery of inherent knowledge encoded in this dataset, respectively. Through both theoretical deduction and empirical evaluation, we find that model performance is negatively correlated to the compression ratio of training data, which usually yields a lower training loss. Based on the findings of the entropy law, we propose a quite efficient and universal data selection method named \textbf{ZIP} for training LLMs, which aim to prioritize data subsets exhibiting a low compression ratio. Based on a multi-stage algorithm that selects diverse data in a greedy manner, we can obtain a good data subset with satisfactory diversity. Extensive experiments have been conducted to validate the entropy law and the superiority of ZIP across different LLM backbones and alignment stages. We also present an interesting application of entropy law that can detect potential performance risks at the beginning of model training.
- Abstract(参考訳): データは大きな言語モデル(LLM)の基盤であるが、すべてのデータがモデル学習に役立つわけではない。
慎重に選択されたデータは、計算オーバーヘッドをはるかに少なくしてLLMの能力を引き出すことができる。
多くの場合,データ選択における個々のサンプルの品質評価に重点を置いているが,サンプル間の組合せ効果は無視されている。
各標本が完全な品質であっても、それらの組み合わせは固有の均一性や矛盾のためにLLMを教えるのに最適である。
本稿では,LLMの性能とデータ選択の関係を明らかにすることを目的とする。
LLMの情報圧縮特性に着想を得て,LLMの性能とデータ圧縮率を結びつける「エントロピー法則」と,データセットの情報冗長性と,このデータセットに符号化された固有知識の習得を反映した第1のエポックトレーニング損失を明らかにする。
理論的推論と経験的評価の両方を通して、モデル性能はトレーニングデータの圧縮比と負の相関関係にあり、通常、トレーニング損失は低い。
エントロピー法則の知見に基づいて,低圧縮比を示すデータサブセットの優先順位付けを目的とした,LLMのトレーニングのための,非常に効率的で普遍的なデータ選択法である「textbf{ZIP}」を提案する。
多様なデータを選択する多段階アルゴリズムに基づいて、良好な多様性を持つ優れたデータサブセットを得ることができる。
異なるLLMバックボーンとアライメントステージにおけるエントロピー法則とZIPの優位性を検証するために、広範囲にわたる実験が行われた。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
関連論文リスト
- Regurgitative Training: The Value of Real Data in Training Large Language Models [1.2815904071470703]
LLMの性能に及ぼす「相対的学習」の影響について検討した。
退行訓練がLSMの性能を著しく向上させる強い証拠が得られている。
本稿では,3つの異なる戦略を提案して評価する。
論文 参考訳(メタデータ) (2024-07-03T18:42:55Z) - Measuring Sample Importance in Data Pruning for Training LLMs from a Data Compression Perspective [4.079147243688765]
我々は,大規模言語モデルのデータ効率訓練手法としてデータプルーニングを考える。
トレーニングされたモデルのログ類似度関数を代理として利用し,サンプルの情報量を測定する。
論文 参考訳(メタデータ) (2024-06-20T09:09:34Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。