論文の概要: QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining
- arxiv url: http://arxiv.org/abs/2504.16511v2
- Date: Sat, 26 Apr 2025 00:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.049856
- Title: QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining
- Title(参考訳): QuaDMix: 効率的なLLM事前学習のための品質・多様性バランスデータ選択
- Authors: Fengze Liu, Weidong Zhou, Binbin Liu, Zhimiao Yu, Yifan Zhang, Haobin Lin, Yifeng Yu, Bingni Zhang, Xiaohuan Zhou, Taifeng Wang, Yong Cao,
- Abstract要約: 我々はQuaDMixという統合されたデータ選択フレームワークを導入し、大規模言語モデルの事前学習のためのデータ分散を自動的に最適化する。
多様なモデルとデータセットにわたる実験により、QuaDMixは複数のベンチマークで平均パフォーマンスが7.2%向上していることが示された。
- 参考スコア(独自算出の注目度): 12.872792775510172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quality and diversity are two critical metrics for the training data of large language models (LLMs), positively impacting performance. Existing studies often optimize these metrics separately, typically by first applying quality filtering and then adjusting data proportions. However, these approaches overlook the inherent trade-off between quality and diversity, necessitating their joint consideration. Given a fixed training quota, it is essential to evaluate both the quality of each data point and its complementary effect on the overall dataset. In this paper, we introduce a unified data selection framework called QuaDMix, which automatically optimizes the data distribution for LLM pretraining while balancing both quality and diversity. Specifically, we first propose multiple criteria to measure data quality and employ domain classification to distinguish data points, thereby measuring overall diversity. QuaDMix then employs a unified parameterized data sampling function that determines the sampling probability of each data point based on these quality and diversity related labels. To accelerate the search for the optimal parameters involved in the QuaDMix framework, we conduct simulated experiments on smaller models and use LightGBM for parameters searching, inspired by the RegMix method. Our experiments across diverse models and datasets demonstrate that QuaDMix achieves an average performance improvement of 7.2% across multiple benchmarks. These results outperform the independent strategies for quality and diversity, highlighting the necessity and ability to balance data quality and diversity.
- Abstract(参考訳): 品質と多様性は、大きな言語モデル(LLM)のトレーニングデータにとって2つの重要な指標であり、パフォーマンスに肯定的な影響を与えます。
既存の研究は、通常、まず品質フィルタリングを適用し、次にデータ比率を調整することで、これらのメトリクスを個別に最適化する。
しかし、これらのアプローチは品質と多様性の本質的にのトレードオフを見落とし、共同で検討する必要がある。
一定のトレーニングクォータが与えられた場合、各データポイントの品質と、データセット全体に対する補完的な効果の両方を評価することが不可欠である。
本稿では,LLM事前学習のためのデータ分散を自動的に最適化し,品質と多様性を両立させる,QuaDMixという統合データ選択フレームワークを提案する。
具体的には、まず、データ品質を測定するための複数の基準を提案し、データポイントを識別するためにドメイン分類を採用し、その結果、全体的な多様性を測定する。
次に、QuaDMixは、これらの品質と多様性に関連するラベルに基づいて、各データポイントのサンプリング確率を決定する統一パラメータ化データサンプリング関数を使用する。
そこで我々は,QuaDMixフレームワークに係わる最適パラメータの探索を高速化するため,より小さなモデルでシミュレーション実験を行い,RegMix法にインスパイアされたパラメータ探索にLightGBMを用いた。
多様なモデルとデータセットにわたる実験により、QuaDMixは複数のベンチマークで平均7.2%の性能向上を実現していることが示された。
これらの結果は、品質と多様性に関する独立した戦略よりも優れており、データ品質と多様性のバランスをとる必要性と能力を強調している。
関連論文リスト
- Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [41.4789135538612]
本稿では,各サンプルの品質評価から,各サンプルのコントリビューション値の比較に焦点を移す,新しい選択型サンプル選択フレームワークを提案する。
LLM(Large Language Models)の高度な言語理解機能により,LLMを用いて選択過程における各オプションの価値を評価する。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity [36.9096162214815]
大規模言語モデル(LLM)の既存の事前学習データ混合手法は、一般的にドメインワイドな方法論に従う。
ボトムアップパラダイムに基づく新しいサンプルワイドデータ混合手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T13:22:11Z) - Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標を提案する。
我々は,NovellSumが精度よく多様性の変動を捉え,命令調整モデルの性能と0.97の相関性が得られることを示す。
論文 参考訳(メタデータ) (2025-02-24T14:20:22Z) - FIRE: Flexible Integration of Data Quality Ratings for Effective Pre-Training [13.182375437229519]
複数のデータ品質レーダを統合するフレキシブルなフレームワークであるFIREを提案する。
Fireは複数の品質信号を統一されたスペースに整合させ、さまざまなデータ品質レーダを統合して、各データポイントに対して包括的な品質信号を提供する。
SlimPajamaデータセットの実験では、FIREは他のデータ選択方法よりも優れています。
論文 参考訳(メタデータ) (2025-02-02T11:52:26Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Federated Mixture of Experts [94.25278695272874]
FedMixは特別なモデルのアンサンブルをトレーニングできるフレームワークです。
類似したデータ特性を持つユーザが同じメンバーを選択して統計的強度を共有することを示す。
論文 参考訳(メタデータ) (2021-07-14T14:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。