論文の概要: SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity
- arxiv url: http://arxiv.org/abs/2503.01506v1
- Date: Mon, 03 Mar 2025 13:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:16.120518
- Title: SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity
- Title(参考訳): SampleMix: データ品質と多様性の調整による事前学習用サンプルデータ混合ストラテジー
- Authors: Xiangyu Xi, Deyang Kong, Jian Yang, Jiawei Yang, Zhengyu Chen, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye,
- Abstract要約: 大規模言語モデル(LLM)の既存の事前学習データ混合手法は、一般的にドメインワイドな方法論に従う。
ボトムアップパラダイムに基づく新しいサンプルワイドデータ混合手法を提案する。
- 参考スコア(独自算出の注目度): 36.9096162214815
- License:
- Abstract: Existing pretraining data mixing methods for large language models (LLMs) typically follow a domain-wise methodology, a top-down process that first determines domain weights and then performs uniform data sampling across each domain. However, these approaches neglect significant inter-domain overlaps and commonalities, failing to control the global diversity of the constructed training dataset. Further, uniform sampling within domains ignores fine-grained sample-specific features, potentially leading to suboptimal data distribution. To address these shortcomings, we propose a novel sample-wise data mixture approach based on a bottom-up paradigm. This method performs global cross-domain sampling by systematically evaluating the quality and diversity of each sample, thereby dynamically determining the optimal domain distribution. Comprehensive experiments across multiple downstream tasks and perplexity assessments demonstrate that SampleMix surpasses existing domain-based methods. Meanwhile, SampleMix requires 1.4x to 2.1x training steps to achieves the baselines' performance, highlighting the substantial potential of SampleMix to optimize pre-training data.
- Abstract(参考訳): 既存の大規模言語モデル(LLM)の事前学習データ混合手法は、ドメインの重み付けを最初に決定し、各ドメインをまたいだ均一なデータサンプリングを行うトップダウンプロセスであるドメインワイドの方法論に従うのが一般的である。
しかし、これらのアプローチはドメイン間の重複と共通点を無視し、構築されたトレーニングデータセットのグローバルな多様性を制御できない。
さらに、ドメイン内の一様サンプリングは、きめ細かいサンプル特有の特徴を無視し、潜在的に最適なデータ分布につながる。
これらの欠点に対処するため,ボトムアップパラダイムに基づく新しいサンプルワイドデータ混合手法を提案する。
本手法は,各試料の品質と多様性を体系的に評価し,最適領域分布を動的に決定し,グローバルなクロスドメインサンプリングを行う。
複数のダウンストリームタスクとパープレキシティアセスメントにわたる総合的な実験は、SampleMixが既存のドメインベースのメソッドを上回っていることを示している。
一方、SampleMixはベースラインのパフォーマンスを達成するために1.4倍から2.1倍のトレーニングステップを必要とし、事前トレーニングデータの最適化にSampleMixの潜在能力を強調している。
関連論文リスト
- Improving Distribution Alignment with Diversity-based Sampling [0.0]
ドメインシフトは機械学習においてユビキタスであり、実際のデータにデプロイすると、モデルのパフォーマンスが大幅に低下する可能性がある。
本稿では,各サンプル小バッチの多様性を誘導することにより,これらの推定値を改善することを提案する。
同時にデータのバランスを保ち、勾配のばらつきを低減し、それによってモデルの一般化能力を高める。
論文 参考訳(メタデータ) (2024-10-05T17:26:03Z) - Deep Domain Isolation and Sample Clustered Federated Learning for Semantic Segmentation [2.515027627030043]
本稿では,2次元セグメンテーションタスクにおける参加者間の共変量変化の影響を初めて検討する。
我々は、モデルの勾配空間内で直接画像領域を分離するディープドメイン分離(DDI)を開発する。
我々は,このクラスタリングアルゴリズムをSCFL(Sample Clustered Federated Learning)フレームワークを通じて活用する。
論文 参考訳(メタデータ) (2024-10-04T12:43:07Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Bidirectional Domain Mixup for Domain Adaptive Semantic Segmentation [73.3083304858763]
本稿では,ドメイン適応型セマンティックセグメンテーションタスクにおけるミックスアップの影響を系統的に研究する。
具体的には、ドメインミックスアップをカットとペーストという2ステップで実現します。
フレームワークの主なコンポーネントを実証的に検証するために、広範囲にわたるアブレーション実験を行います。
論文 参考訳(メタデータ) (2023-03-17T05:22:44Z) - A Data Cartography based MixUp for Pre-trained Language Models [47.90235939359225]
MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
論文 参考訳(メタデータ) (2022-05-06T17:59:19Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。