論文の概要: Beyond Scale: The Diversity Coefficient as a Data Quality Metric for Variability in Natural Language Data
- arxiv url: http://arxiv.org/abs/2306.13840v3
- Date: Mon, 26 Aug 2024 17:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 01:17:09.287953
- Title: Beyond Scale: The Diversity Coefficient as a Data Quality Metric for Variability in Natural Language Data
- Title(参考訳): スケールを超えて: 自然言語データにおける可変性のためのデータ品質指標としての多様性係数
- Authors: Brando Miranda, Alycia Lee, Sudharsan Sundar, Allison Casasola, Sanmi Koyejo,
- Abstract要約: LLM(Large Language Models)の事前トレーニングのトレンドは、主にモデルとデータセットサイズのスケーリングに焦点を当てている。
事前学習データの質は強力なLDMを訓練する上で重要な要素であると考えられているが、厳格に評価されていない誤った概念である。
本稿では,データ品質の1つの重要な側面 - 自然言語データの多様性を計測する -- の形式化を,多様性係数と呼ぶ尺度を用いて提案する。
- 参考スコア(独自算出の注目度): 11.46958089612243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current trends in pre-training Large Language Models (LLMs) primarily focus on the scaling of model and dataset size. While the quality of pre-training data is considered an important factor for training powerful LLMs, it remains a nebulous concept that has not been rigorously characterized. To this end, we propose a formalization of one key aspect of data quality -- measuring the variability of natural language data -- specifically via a measure we call the diversity coefficient. Our empirical analysis shows that the proposed diversity coefficient aligns with the intuitive properties of diversity and variability, e.g., it increases as the number of latent concepts increases. Then, we measure the diversity coefficient of publicly available pre-training datasets and demonstrate that their formal diversity is high compared to theoretical lower and upper bounds. Finally, we conduct a comprehensive set of controlled interventional experiments with GPT-2 and LLaMAv2 that demonstrate the diversity coefficient of pre-training data characterizes useful aspects of downstream model evaluation performance -- totaling 44 models of various sizes (51M to 7B parameters). We conclude that our formal notion of diversity is an important aspect of data quality that captures variability and causally leads to improved evaluation performance.
- Abstract(参考訳): LLM(Large Language Models)の事前トレーニングのトレンドは、主にモデルとデータセットサイズのスケーリングに焦点を当てている。
事前学習データの質は強力なLDMを訓練する上で重要な要素であると考えられているが、厳格に評価されていない誤った概念である。
そこで本稿では,データ品質の1つの重要な側面 - 自然言語データの多様性を計測する -- を,特に多様性係数と呼ぶ尺度を用いて形式化することを提案する。
我々の経験的分析により,提案した多様性係数は,多様性と可変性の直感的な性質,例えば,潜在概念の数が増加するにつれて増加することが示されている。
次に,公開事前学習データセットの多様性係数を測定し,それらの形式的多様性が理論的下限および上限よりも高いことを示す。
最後に, GPT-2 と LLaMAv2 による総合的な介入実験を行い, 事前学習データの多様性係数が, 下流モデル評価性能の有用な側面を特徴付け, 様々なサイズの44モデル(51M から 7B のパラメータ)を集計した。
多様性という形式的な概念はデータ品質の重要な側面であり、多様性を捉え、因果的に評価性能の向上につながると結論付けている。
関連論文リスト
- On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - G-DIG: Towards Gradient-based Diverse and High-quality Instruction Data Selection for Machine Translation [21.506844286376275]
本稿では,機械翻訳のための高品質かつ多様な命令微調整データを自動的に選択する,勾配に基づく新しい手法を提案する。
私たちの重要なイノベーションは、個々のトレーニング例がトレーニング中にモデルにどのように影響するかを分析することです。
論文 参考訳(メタデータ) (2024-05-21T16:38:13Z) - LMD3: Language Model Data Density Dependence [78.76731603461832]
我々は,学習データ密度推定に基づいて,言語モデルタスクのパフォーマンスを個別の例レベルで解析する手法を開発した。
微調整データに対する制御的介入としてパラフレーズを用いた実験は、特定のテストクエリに対するトレーニング分布のサポートの増加が、測定可能な密度の増加をもたらすことを示した。
我々は,学習データのサブセットに対象モデルの予測が依存していることの統計的証拠を提供することができると結論付けた。
論文 参考訳(メタデータ) (2024-05-10T09:03:27Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Role of Structural and Conformational Diversity for Machine Learning
Potentials [4.608732256350959]
量子力学におけるデータバイアスとモデル一般化の関係について検討する。
この結果から,一般化指標の微妙なパターンが明らかになった。
これらの知見は、QMデータ生成のための貴重な洞察とガイドラインを提供する。
論文 参考訳(メタデータ) (2023-10-30T19:33:12Z) - On the Connection between Pre-training Data Diversity and Fine-tuning
Robustness [66.30369048726145]
下流の有効ロバスト性に影響を与える主な要因はデータ量である。
各種自然および合成データソースから抽出した事前学習分布について,本研究の成果を示す。
論文 参考訳(メタデータ) (2023-07-24T05:36:19Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。