論文の概要: Topic Over Source: The Key to Effective Data Mixing for Language Models Pre-training
- arxiv url: http://arxiv.org/abs/2502.16802v3
- Date: Fri, 08 Aug 2025 12:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 14:17:29.179841
- Title: Topic Over Source: The Key to Effective Data Mixing for Language Models Pre-training
- Title(参考訳): Topic Over Source: 言語モデルの事前トレーニングに有効なデータ混合の鍵
- Authors: Jiahui Peng, Xinlin Zhuang, Jiantao Qiu, Ren Ma, Jing Yu, He Zhu, Conghui He,
- Abstract要約: マルチステージプロセスで生成された詳細なトピックラベルを利用するトピックベースのデータミキシング戦略を提案する。
我々は、トピックによって混合されたデータに基づいて事前訓練された言語モデルは、ソースによって混合されたデータで訓練された言語よりも一貫して優れていることを示した。
理論的解析により,トピックベースのデータは,ソースベースのアプローチに比べて検証損失が著しく低いことがわかった。
- 参考スコア(独自算出の注目度): 10.769503491579666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of large language models (LLMs) is significantly affected by the quality and composition of their pre-training data, which is inherently diverse, spanning various languages, sources, and topics. Effectively integrating these heterogeneous data groups is crucial for optimizing LLM performance. Previous research has predominantly concentrated on source-based data mixing, often neglecting the nuanced topic-level characteristics of the data. To address this gap, we propose a topic-based data mixing strategy that utilizes detailed topic labels generated through a multi-stage process combining unsupervised clustering, LLM-based summarization, and supervised classifier training. With this strategy, we conduct the first comprehensive comparison of topic-based versus source-based partitioning across multiple mixing strategies. We demonstrate that language models pretrained on data mixed by topics consistently outperform those trained on data mixed by sources across multiple methods including RegMix, DoReMi,temperature-based sampling, and a manual mixing method based on downstream task performance. Our theoretical analysis reveals that topic-based data achieves significantly lower validation loss compared to source-based approaches, creating a better optimization landscape for model training. We will make our code, annotated datasets, and topic classification models publicly available to facilitate further research.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能は、様々な言語、ソース、トピックにまたがる、本質的に多様な事前学習データの品質と構成に大きく影響している。
これらの異種データグループを効果的に統合することは、LLM性能の最適化に不可欠である。
従来の研究は主にソースベースのデータミキシングに焦点を合わせてきたが、多くの場合、データの微妙なトピックレベルの特性を無視している。
このギャップに対処するために、教師なしクラスタリング、LLMに基づく要約、教師付き分類器訓練を組み合わせた多段階プロセスにより生成された詳細なトピックラベルを利用するトピックベースのデータミキシング戦略を提案する。
この戦略により、複数の混合戦略にまたがるトピックベースとソースベースのパーティショニングの包括的な比較を行う。
本稿では,RegMix,DoReMi,温度に基づくサンプリング,下流タスク性能に基づく手動混合手法など,複数の手法によるデータ混在の学習において,トピックが混在するデータに基づいて事前学習した言語モデルの方が一貫して優れていることを示す。
理論的解析により,トピックベースのデータは,ソースベースアプローチに比べて検証損失が大幅に小さくなり,モデルトレーニングの最適化環境が向上することが明らかとなった。
コード、注釈付きデータセット、トピック分類モデルを公開して、さらなる研究を促進するつもりです。
関連論文リスト
- Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [36.277423093218275]
大規模言語モデル(LLM)の全体的な能力向上におけるデータ多様性の役割について検討する。
本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文 参考訳(メタデータ) (2025-02-05T17:21:01Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - Fine-Tuning Language Models on Multiple Datasets for Citation Intention Classification [17.03832781104098]
引用意図分類(Citation intention Classification, CIC)は、意図によって引用を分類するツールである。
以前の研究では、事前訓練された言語モデル(PLM)がCICベンチマークで最先端のパフォーマンスを達成できることが示されている。
複数の補助的CICデータセットとともに、一次関心のデータセット上でPLMを微調整するマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:45:02Z) - Data Proportion Detection for Optimized Data Management for Large Language Models [32.62631669919273]
我々は,事前学習データの割合の自動推定を可能にする新しいトピック,textitdata proportion Detectionを導入する。
データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T04:30:32Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - Quality Not Quantity: On the Interaction between Dataset Design and
Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。
その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。
複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文 参考訳(メタデータ) (2022-08-10T18:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。