論文の概要: Beyond Scale: the Diversity Coefficient as a Data Quality Metric
Demonstrates LLMs are Pre-trained on Formally Diverse Data
- arxiv url: http://arxiv.org/abs/2306.13840v2
- Date: Tue, 26 Sep 2023 23:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 19:09:10.001445
- Title: Beyond Scale: the Diversity Coefficient as a Data Quality Metric
Demonstrates LLMs are Pre-trained on Formally Diverse Data
- Title(参考訳): スケールを超えて:データ品質指標としての多様性係数 LLM は形式的に異なるデータに基づいて事前訓練される
- Authors: Alycia Lee, Brando Miranda, Sudharsan Sundar, Sanmi Koyejo
- Abstract要約: 我々は最近提案されたTask2Vecの多様性係数を使って、データ品質の形式的側面を理解します。
具体的には、公開事前学習データセットの多様性係数を測定し、それらの形式的多様性が高いことを示す。
多様性係数は信頼性が高く、公開可能なLLMデータセットには高い値を示し、LLMのための有用な多種多様なデータセットを構築するために使用できると推測する。
- 参考スコア(独自算出の注目度): 12.76278784443243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current trends to pre-train capable Large Language Models (LLMs) mostly focus
on scaling of model and dataset size. However, the quality of pre-training data
is an important factor for training powerful LLMs, yet it is a nebulous concept
that has not been fully characterized. Therefore, we use the recently proposed
Task2Vec diversity coefficient to ground and understand formal aspects of data
quality, to go beyond scale alone. Specifically, we measure the diversity
coefficient of publicly available pre-training datasets to demonstrate that
their formal diversity is high when compared to theoretical lower and upper
bounds. In addition, to build confidence in the diversity coefficient, we
conduct interpretability experiments and find that the coefficient aligns with
intuitive properties of diversity, e.g., it increases as the number of latent
concepts increases. We conclude the diversity coefficient is reliable, show
it's high for publicly available LLM datasets, and conjecture it can be used to
build useful diverse datasets for LLMs.
- Abstract(参考訳): 有能な大規模言語モデル(llm)を事前学習する現在のトレンドは、主にモデルとデータセットサイズのスケーリングに重点を置いている。
しかし、事前学習データの質は強力なLCMを訓練する上で重要な要素であるが、十分に評価されていない誤った概念である。
そこで、最近提案されたTask2Vecの多様性係数を用いて、データ品質の形式的側面を基礎化し、理解し、スケールのみを超えていく。
具体的には、公開事前学習データセットの多様性係数を測定し、それらの形式的多様性が理論的下限および上限と比較して高いことを示す。
さらに、多様性係数の信頼性を高めるために、解釈可能性実験を行い、その係数が多様性の直感的な性質、例えば潜在概念の数が増加するにつれて増加することを確認する。
多様性係数は信頼性が高く、公開可能なLLMデータセットには高い値を示し、LLMのための有用な多様なデータセットを構築するために使用できると推測する。
関連論文リスト
- On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes [62.94611066903098]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - How Abilities in Large Language Models are Affected by Supervised
Fine-tuning Data Composition [67.02182566213268]
本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。
我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。
その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2023-10-09T07:56:16Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。