論文の概要: Rethinking Data Curation in LLM Training: Online Reweighting Offers Better Generalization than Offline Methods
- arxiv url: http://arxiv.org/abs/2605.05227v1
- Date: Sun, 19 Apr 2026 14:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.616589
- Title: Rethinking Data Curation in LLM Training: Online Reweighting Offers Better Generalization than Offline Methods
- Title(参考訳): LLMトレーニングにおけるデータキュレーションの再考:オンラインリヘアリングはオフライン手法よりも優れた一般化を提供する
- Authors: Wanru Zhao, Yihong Chen, Yuzhi Tang, Wentao Ma, Shengchao Hu, Shell Xu Hu, Alex Iacob, Abhinav Mehrotra, Nicholas D. Lane,
- Abstract要約: ADAPTは動的オンラインフレームワークで、類似性に基づく品質信号によって導かれる適応的なサンプル単位の学習率でトレーニングサンプルを再重み付けする。
ADAPTはオフラインの選択/ミキシングと先行のオンライン手法を一貫して上回り、同じFLOPの下でより強力なクロスベンチマークの一般化を実現している。
- 参考スコア(独自算出の注目度): 30.96121293915128
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data curation is a critical yet under-explored area in large language model (LLM) training. Existing methods, such as data selection and mixing, operate in an offline paradigm, detaching themselves from training. This separation introduces engineering overhead and makes the curation brittle: the entire pipeline must be re-run under model/task shifts. Moreover, offline methods alter data size through hard filtering or resampling, often sacrificing data diversity and harming generalization. We propose to rethink data curation as an online reweighting problem, where sample importance is dynamically adjusted during training via loss weighting rather than static pre-processing. Specifically, we introduce ADAPT (Adaptive Data reweighting for Pretraining and FineTuning), a dynamic online framework that reweights training samples with adaptive per-sample learning rates guided by similarity-based quality signals, without changing the number of training samples. Unlike offline methods that enforce a static data distribution, ADAPT acts as an implicit curriculum learner, progressively shifting focus from coarse-grained patterns to fine-grained semantic distinctions as the model evolves. Experiments on both instruction tuning and large-scale pretraining show that ADAPT consistently outperforms offline selection/mixing and prior online methods, achieving stronger cross-benchmark generalization under equal FLOPs.
- Abstract(参考訳): データキュレーションは、大規模言語モデル(LLM)トレーニングにおいて、重要だが未探索の領域である。
データの選択やミキシングといった既存の手法は、オフラインのパラダイムで運用され、トレーニングから切り離されている。
この分離によってエンジニアリングのオーバーヘッドが発生し、キュレーションが不安定になる。パイプライン全体がモデル/タスクシフトの下で再実行されなければならない。
さらに、オフラインメソッドはハードフィルタリングや再サンプリングを通じてデータサイズを変更し、データの多様性を犠牲にし、一般化を損なうことも多い。
我々は,データキュレーションをオンライン再重み付け問題として再考し,静的前処理よりも損失重み付けによるトレーニングにおいて,サンプル重要度を動的に調整することを提案する。
特にADAPT(Adaptive Data reweighting for Pretraining and FineTuning)を導入する。これは動的オンラインフレームワークで、トレーニングサンプルの数を変えることなく、類似性に基づく品質信号によって誘導される適応的なサンプル単位の学習率でトレーニングサンプルを再重み付けする。
静的なデータ配信を強制するオフラインメソッドとは異なり、ADAPTは暗黙のカリキュラム学習者として機能し、モデルを進化させるにつれて、焦点を粗いパターンから細かなセマンティックな区別へと徐々にシフトする。
インストラクションチューニングと大規模事前学習の両方の実験により、ADAPTはオフライン選択/ミキシングと従来のオンライン手法を一貫して上回り、FLOPと同等に強力なクロスベンチマークの一般化を実現している。
関連論文リスト
- Adaptive Data Dropout: Towards Self-Regulated Learning in Deep Neural Networks [10.269961654607108]
ディープニューラルネットワークは通常、エポック全体にわたって大きなデータセットを均一にサンプリングすることによって訓練される。
最近の研究は、トレーニングデータの量を徐々に減らすことで、効率と一般化が向上することを示している。
本稿では,パフォーマンスフィードバックに基づいてトレーニングデータのサブセットを動的に調整するフレームワークであるAdaptive Data Dropoutを提案する。
論文 参考訳(メタデータ) (2026-04-14T16:41:33Z) - DIET: Learning to Distill Dataset Continually for Recommender Systems [69.68271683922536]
ディープラーニングモデルは、大規模で継続的な成長するストリーミング行動ログに依存する、継続的な学習パラダイムの下でトレーニングされる。
大規模なプラットフォームでは、アーキテクチャ比較やイテレーションのために、完全な履歴データ上でモデルを再トレーニングするのは、極めて高価であり、モデル開発を著しく遅くする。
我々は,この問題を,レコメンデータシステムのためのEmphstreaming dataset distillationとして定式化し,トレーニングクリティカルな信号を保持しながら,ストリーミングデータとともに進化するコンパクトな蒸留データセットを維持する統一フレームワークである textbfDIET を提案する。
論文 参考訳(メタデータ) (2026-03-26T02:50:13Z) - ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection [28.75333303894706]
ToReMiは、トピックの関連や観察された学習パターンに応じてトレーニングサンプル重量を調整する新しいフレームワークである。
実験の結果,ToReMiの変種は従来の事前学習手法よりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-04-01T12:06:42Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - MelissaDL x Breed: Towards Data-Efficient On-line Supervised Training of Multi-parametric Surrogates with Active Learning [0.0]
オンライン・サロゲート・トレーニングにおけるデータ効率を向上させるための新しいアクティブ・ラーニング手法を提案する。
シュロゲートは、初期条件と境界条件の異なるパラメータで、与えられた時間ステップを直接予測するように訓練される。
2次元熱PDEの予備的な結果は、この方法、ブリード (Breed) の可能性を示し、サロゲートの一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-08T09:52:15Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。