論文の概要: OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration
- arxiv url: http://arxiv.org/abs/2602.05400v1
- Date: Thu, 05 Feb 2026 07:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.817605
- Title: OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration
- Title(参考訳): OPUS: 各イテレーションにおける大規模言語モデルの事前学習における効率的かつ原則的データ選択を目指して
- Authors: Shaobo Wang, Xuan Ouyang, Tianyi Xu, Yuzheng Hu, Jialin Liu, Guo Chen, Tianyu Zhang, Junhao Zheng, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang,
- Abstract要約: 動的データ選択フレームワークであるOPUS(Producted Utility Selection)を提案する。
OPUSは、有効な更新を安定した分散プロキシから派生したターゲット方向に投影することで、候補をスコア付けする。
GPT-2 Large/XL on FineWeb and FineWeb-Edu with 30B tokensの事前トレーニングでは、OPUSは工業レベルのベースラインや200Bによるフルトレーニングよりも優れています。
SciencePedia上でのQ3-8B-Baseの事前トレーニングでは、OPUSは3Bトークンによる完全なトレーニングに比べて0.5Bトークンしか使用せず、優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 42.705681949636634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As high-quality public text approaches exhaustion, a phenomenon known as the Data Wall, pre-training is shifting from more tokens to better tokens. However, existing methods either rely on heuristic static filters that ignore training dynamics, or use dynamic yet optimizer-agnostic criteria based on raw gradients. We propose OPUS (Optimizer-induced Projected Utility Selection), a dynamic data selection framework that defines utility in the optimizer-induced update space. OPUS scores candidates by projecting their effective updates, shaped by modern optimizers, onto a target direction derived from a stable, in-distribution proxy. To ensure scalability, we employ Ghost technique with CountSketch for computational efficiency, and Boltzmann sampling for data diversity, incurring only 4.7\% additional compute overhead. OPUS achieves remarkable results across diverse corpora, quality tiers, optimizers, and model scales. In pre-training of GPT-2 Large/XL on FineWeb and FineWeb-Edu with 30B tokens, OPUS outperforms industrial-level baselines and even full 200B-token training. Moreover, when combined with industrial-level static filters, OPUS further improves pre-training efficiency, even with lower-quality data. Furthermore, in continued pre-training of Qwen3-8B-Base on SciencePedia, OPUS achieves superior performance using only 0.5B tokens compared to full training with 3B tokens, demonstrating significant data efficiency gains in specialized domains.
- Abstract(参考訳): 高品質な公開テキスト(Data Wallとして知られる現象)が枯渇に近づくにつれ、事前トレーニングはより多くのトークンからより良いトークンへとシフトしつつある。
しかし、既存の手法は、トレーニングダイナミクスを無視したヒューリスティックな静的フィルタに依存するか、あるいは生勾配に基づいた動的だが最適化された基準を使用するかのいずれかである。
我々は,オプティマイザによる更新空間におけるユーティリティを定義する動的データ選択フレームワークであるOPUS(Optimizer-induced Projected Utility Selection)を提案する。
OPUSは、現在のオプティマイザによって形成された効果的な更新を、安定した分散プロキシから派生したターゲット方向に投影することで、候補をスコア付けする。
スケーラビリティを確保するため、計算効率はCountSketch、データ多様性はボルツマンサンプリングが4.7倍の計算オーバーヘッドしか発生しない。
OPUSは、様々なコーパス、品質層、オプティマイザ、モデルスケールにまたがる顕著な結果を達成する。
GPT-2 Large/XL on FineWeb および FineWeb-Edu with 30B tokens の事前トレーニングでは、OPUS は工業レベルのベースラインよりも優れ、200B-token のトレーニングも完全である。
さらに、工業レベルの静的フィルタと組み合わせることで、OPUSは低品質のデータであっても事前学習効率をさらに向上する。
さらに、SciencePedia上でのQwen3-8B-Baseの事前トレーニングでは、3Bトークンによる完全なトレーニングに比べて0.5Bトークンしか使用せず、優れたパフォーマンスを実現している。
関連論文リスト
- Utility-Diversity Aware Online Batch Selection for LLM Supervised Fine-tuning [49.04912820721943]
Supervised Fine-tuning (SFT) は計算コストが高く、時にはオーバーフィットやバイアス増幅に悩まされる。
本研究は、トレーニングプロセス中にサンプルを動的にスコア付け、フィルタリングするオンラインバッチ選択ファミリについて研究する。
SFTにおける効率的なオンラインバッチ選択のためのフレームワークである textbfUDS (Utility-Diversity Sampling) を開発した。
論文 参考訳(メタデータ) (2025-10-19T15:32:01Z) - ZeroShotOpt: Towards Zero-Shot Pretrained Models for Efficient Black-Box Optimization [31.894110383242566]
提案するZeroShotは,2次元から20次元までの連続的なブラックボックス最適化タスクのための汎用的,事前訓練されたモデルである。
提案手法は,12種類のBOから収集した大規模最適化タスクに対して,オフライン強化学習を利用する。
論文 参考訳(メタデータ) (2025-10-03T14:33:23Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである
InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。
本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文 参考訳(メタデータ) (2025-08-07T15:34:06Z) - Large Language Models are Demonstration Pre-Selectors for Themselves [57.101804269100185]
大規模言語モデル(LLM)を備えたインコンテキスト学習(ICL)は、トレーニングデータ全体から数ショットのデモを選択することで、強力な数ショットのパフォーマンスを提供する。
FEw yet Essential Demonstration prE-selectoRは、デモの代表的なサブセットを特定する新しい事前選択フレームワークである。
FEwでもEssential Demonstration prE-selectoRは、パフォーマンスを維持しながら、トレーニングデータのサイズを20%以上削減できる。
論文 参考訳(メタデータ) (2025-06-06T12:29:03Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。
実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文 参考訳(メタデータ) (2025-05-12T10:57:51Z) - Combatting Dimensional Collapse in LLM Pre-Training Data via Diversified File Selection [65.96556073745197]
DiverSified File selection algorithm (DiSF) は特徴空間における最も非相関なテキストファイルを選択するために提案される。
DiSFは590万のトレーニングファイルの98.5%をSlimPajamaに保存し、50Bのトレーニング予算内でのデータ事前トレーニングを上回っている。
論文 参考訳(メタデータ) (2025-04-29T11:13:18Z) - SASL: Saliency-Adaptive Sparsity Learning for Neural Network
Acceleration [20.92912642901645]
そこで本稿では、さらなる最適化のために、SASL(Saliency-Adaptive Sparsity Learning)アプローチを提案する。
ResNet-50 の 49.7% の FLOP を 0.39% のトップ-1 と 0.05% のトップ-5 の精度で削減できる。
論文 参考訳(メタデータ) (2020-03-12T16:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。