論文の概要: Joint Selection for Large-Scale Pre-Training Data via Policy Gradient-based Mask Learning
- arxiv url: http://arxiv.org/abs/2512.24265v1
- Date: Tue, 30 Dec 2025 14:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.404055
- Title: Joint Selection for Large-Scale Pre-Training Data via Policy Gradient-based Mask Learning
- Title(参考訳): 政策グラディエントに基づくマスク学習による大規模事前学習データの共同選択
- Authors: Ziqing Fan, Yuqiao Xian, Yan Sun, Li Shen,
- Abstract要約: 大規模な言語モデルの事前トレーニングには、きめ細かいデータレシピが不可欠だ。
このレシピの重要な要素の1つは、定義されたルール、LCM判定、または埋め込みにおける統計情報によって生成されるスコアに基づいてサンプルを選択することである。
本研究では,大規模事前学習データ選択のための新しい,効率的な共同学習フレームワークであるDateMASKを紹介する。
- 参考スコア(独自算出の注目度): 17.10988637170463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fine-grained data recipe is crucial for pre-training large language models, as it can significantly enhance training efficiency and model performance. One important ingredient in the recipe is to select samples based on scores produced by defined rules, LLM judgment, or statistical information in embeddings, which can be roughly categorized into quality and diversity metrics. Due to the high computational cost when applied to trillion-scale token pre-training datasets such as FineWeb and DCLM, these two or more types of metrics are rarely considered jointly in a single selection process. However, in our empirical study, selecting samples based on quality metrics exhibit severe diminishing returns during long-term pre-training, while selecting on diversity metrics removes too many valuable high-quality samples, both of which limit pre-trained LLMs' capabilities. Therefore, we introduce DATAMASK, a novel and efficient joint learning framework designed for large-scale pre-training data selection that can simultaneously optimize multiple types of metrics in a unified process, with this study focusing specifically on quality and diversity metrics. DATAMASK approaches the selection process as a mask learning problem, involving iterative sampling of data masks, computation of policy gradients based on predefined objectives with sampled masks, and updating of mask sampling logits. Through policy gradient-based optimization and various acceleration enhancements, it significantly reduces selection time by 98.9% compared to greedy algorithm, enabling our study to explore joint learning within trillion-scale tokens. With DATAMASK, we select a subset of about 10% from the 15 trillion-token FineWeb dataset, termed FineWeb-Mask. Evaluated across 12 diverse tasks, we achieves significant improvements of 3.2% on a 1.5B dense model and 1.9% on a 7B MoE model.
- Abstract(参考訳): 訓練効率とモデル性能を大幅に向上させるため、大規模言語モデルの事前学習には、きめ細かいデータレシピが不可欠である。
レシピの重要な要素の1つは、定義されたルール、LCM判定、あるいは埋め込みにおける統計情報に基づいてサンプルを選択することである。
FineWebやDCLMのような数兆規模のトークン事前学習データセットに適用した場合、計算コストが高いため、これらの2つ以上のメトリクスは単一の選択プロセスにおいて共同で考慮されることは滅多にない。
しかし,本研究では,長期事前学習において,品質指標に基づくサンプルの選択が著しく低下するのに対して,多様性指標による選択は,事前学習したLLMの能力を制限する貴重な高品質なサンプルを多く取り除くという実証的研究を行った。
そこで本研究では,大規模事前学習データ選択のために設計された,複数種類のメトリクスを統一されたプロセスで同時に最適化可能な,新しい,効率的な共同学習フレームワークであるDateMASKを紹介した。
DataMASKは、選択プロセスにマスク学習の問題としてアプローチし、データマスクの反復サンプリング、サンプルマスクを用いた事前定義された目的に基づくポリシー勾配の計算、マスクサンプリングログの更新を含む。
政策勾配に基づく最適化と様々な加速度拡張により、グレディアルゴリズムと比較して選択時間を98.9%削減し、数兆単位のトークン内で共同学習を探索することが可能となった。
DataMASKでは、FineWeb-Maskと呼ばれる15兆のFinWebデータセットから、約10%のサブセットを選択します。
12種類のタスクで評価した結果,1.5B高密度モデルでは3.2%,7B MoEモデルでは1.9%の大幅な改善が得られた。
関連論文リスト
- Exploring Instruction Data Quality for Explainable Image Quality Assessment [58.345719195248314]
説明可能なIQAのための指導調律データセットにおけるデータ品質の役割について検討する。
データセットのサブセットをランダムに選択することで、インストラクションチューニングデータセット全体のトレーニングよりも優れた結果が得られます。
本稿では,クラスタリング特徴抽出,クラスタクォータ割り当て,クラスタサンプリング戦略の3段階からなるクラスタリングに基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-04T17:12:54Z) - Oversampling and Downsampling with Core-Boundary Awareness: A Data Quality-Driven Approach [2.334306891078381]
本稿では,2種類のデータを系統的に識別し,識別する手法を提案する。
高品質な意思決定関連データを優先順位付けすることで、私たちのアプローチはテキスト、マルチモーダル、そして自己教師型学習シナリオにまで拡張できます。
この研究は、データ効率の学習における将来の研究の道を開いた。
論文 参考訳(メタデータ) (2025-09-24T07:55:07Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。