論文の概要: Unsupervised Topic Models are Data Mixers for Pre-training Language Models
- arxiv url: http://arxiv.org/abs/2502.16802v1
- Date: Mon, 24 Feb 2025 03:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:24.402011
- Title: Unsupervised Topic Models are Data Mixers for Pre-training Language Models
- Title(参考訳): 教師なしトピックモデルは事前学習言語モデルのためのデータミキサーである
- Authors: Jiahui Peng, Xinlin Zhuang, Qiu Jiantao, Ren Ma, Jing Yu, Tianyi Bai, Conghui He,
- Abstract要約: 大規模言語モデル(LLM)のためのトピックベースのデータ混合戦略を提案する。
DataWeaveは、セマンティックに類似したドキュメントをグループ化するために、マルチステージクラスタリングプロセスを採用している。
我々は、サイエンスとリレーションシップのトピックが特に効果的であることを確認し、最も実質的なパフォーマンス改善をもたらす。
- 参考スコア(独自算出の注目度): 6.77198566340415
- License:
- Abstract: The performance of large language models (LLMs) is significantly affected by the quality and composition of their pre-training data, which is inherently diverse, spanning various domains, sources, and topics. Effectively integrating these heterogeneous data sources is crucial for optimizing LLM performance. Previous research has predominantly concentrated on domain-based data mixing, often neglecting the nuanced topic-level characteristics of the data. To address this gap, we propose a simple yet effective topic-based data mixing strategy that utilizes fine-grained topics generated through our topic modeling method, DataWeave. DataWeave employs a multi-stage clustering process to group semantically similar documents and utilizes LLMs to generate detailed topics, thereby facilitating a more nuanced understanding of dataset composition. Our strategy employs heuristic methods to upsample or downsample specific topics, which significantly enhances LLM performance on downstream tasks, achieving superior results compared to previous, more complex data mixing approaches. Furthermore, we confirm that the topics Science and Relationships are particularly effective, yielding the most substantial performance improvements. We will make our code and datasets publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能は、様々なドメイン、ソース、トピックにまたがる、本質的に多様な事前学習データの品質と構成に大きく影響している。
LLMの性能を最適化するためには、これらの異種データソースを効果的に統合することが不可欠である。
これまでの研究は主にドメインベースのデータミキシングに焦点を合わせてきたが、多くの場合、データの微妙なトピックレベルの特性を無視している。
このギャップに対処するために、我々は、トピックモデリング手法であるDataWeaveによって生成されたきめ細かいトピックを利用した、シンプルで効果的なトピックベースのデータミキシング戦略を提案する。
DataWeaveは、セマンティックに類似したドキュメントをグループ化するために、多段階のクラスタリングプロセスを採用し、LLMを使用して詳細なトピックを生成し、データセット構成のより微妙な理解を容易にする。
我々の戦略では、特定のトピックのアップサンプリングやダウンサンプリングにヒューリスティック手法を採用し、下流タスクにおけるLLM性能を大幅に向上させ、従来のより複雑なデータ混合手法と比較して優れた結果を得る。
さらに、Science and Relationsのトピックが特に有効であることを確認し、最も実質的なパフォーマンス改善をもたらす。
コードとデータセットを公開します。
関連論文リスト
- Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [36.277423093218275]
大規模言語モデル(LLM)の全体的な能力向上におけるデータ多様性の役割について検討する。
本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文 参考訳(メタデータ) (2025-02-05T17:21:01Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - Fine-Tuning Language Models on Multiple Datasets for Citation Intention Classification [17.03832781104098]
引用意図分類(Citation intention Classification, CIC)は、意図によって引用を分類するツールである。
以前の研究では、事前訓練された言語モデル(PLM)がCICベンチマークで最先端のパフォーマンスを達成できることが示されている。
複数の補助的CICデータセットとともに、一次関心のデータセット上でPLMを微調整するマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:45:02Z) - Data Proportion Detection for Optimized Data Management for Large Language Models [32.62631669919273]
我々は,事前学習データの割合の自動推定を可能にする新しいトピック,textitdata proportion Detectionを導入する。
データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T04:30:32Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - Quality Not Quantity: On the Interaction between Dataset Design and
Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。
その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。
複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文 参考訳(メタデータ) (2022-08-10T18:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。