論文の概要: MASS: Mathematical Data Selection via Skill Graphs for Pretraining Large Language Models
- arxiv url: http://arxiv.org/abs/2503.14917v1
- Date: Wed, 19 Mar 2025 05:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:49.356672
- Title: MASS: Mathematical Data Selection via Skill Graphs for Pretraining Large Language Models
- Title(参考訳): MASS:大規模言語モデルの事前学習のためのスキルグラフによる数学的データ選択
- Authors: Jiazheng Li, Lu Yu, Qing Cui, Zhiqiang Zhang, Jun Zhou, Yanfang Ye, Chuxu Zhang,
- Abstract要約: 大規模言語モデル(LLM)の事前学習と微調整において高品質なデータが重要な役割を果たす
我々は,textbfSkill グラフを用いて LLM の事前学習を行う textbfMAthematical data textbfSelection フレームワークである MASS を紹介する。
実験により, 異なるモデルサイズにおけるMASSの有効性と有効性を示した。
- 参考スコア(独自算出の注目度): 44.458342094004024
- License:
- Abstract: High-quality data plays a critical role in the pretraining and fine-tuning of large language models (LLMs), even determining their performance ceiling to some degree. Consequently, numerous data selection methods have been proposed to identify subsets of data that can effectively and efficiently enhance model performance. However, most of these methods focus on general data selection and tend to overlook the specific nuances of domain-related data. In this paper, we introduce MASS, a \textbf{MA}thematical data \textbf{S}election framework using the \textbf{S}kill graph for pretraining LLMs in the mathematical reasoning domain. By taking into account the unique characteristics of mathematics and reasoning, we construct a skill graph that captures the mathematical skills and their interrelations from a reference dataset. This skill graph guides us in assigning quality scores to the target dataset, enabling us to select the top-ranked subset which is further used to pretrain LLMs. Experimental results demonstrate the efficiency and effectiveness of MASS across different model sizes (1B and 7B) and pretraining datasets (web data and synthetic data). Specifically, in terms of efficiency, models trained on subsets selected by MASS can achieve similar performance to models trained on the original datasets, with a significant reduction in the number of trained tokens - ranging from 50\% to 70\% fewer tokens. In terms of effectiveness, when trained on the same amount of tokens, models trained on the data selected by MASS outperform those trained on the original datasets by 3.3\% to 5.9\%. These results underscore the potential of MASS to improve both the efficiency and effectiveness of pretraining LLMs.
- Abstract(参考訳): 高品質のデータは、大規模言語モデル(LLM)の事前訓練と微調整において重要な役割を果たす。
その結果、モデルの性能を効果的かつ効率的に向上できるデータのサブセットを特定するために、多数のデータ選択法が提案されている。
しかし、これらの手法の多くは一般的なデータ選択に重点を置いており、ドメイン関連データの特定のニュアンスを無視する傾向がある。
本稿では,数理推論領域における LLM の事前学習のために,MASS を textbf{MA}thematical data \textbf{S}election framework として導入する。
数学と推論のユニークな特徴を考慮し、参照データセットから数学的スキルとそれらの相互関係をキャプチャするスキルグラフを構築する。
このスキルグラフは、ターゲットデータセットに品質スコアを割り当てるのに役立ち、LLMの事前トレーニングにさらに使用される上位サブセットを選択することができます。
実験結果は,異なるモデルサイズ(1Bと7B)および事前学習データセット(Webデータと合成データ)におけるMASSの有効性と有効性を示した。
具体的には、効率の面では、MASSによって選択されたサブセットでトレーニングされたモデルは、オリジナルのデータセットでトレーニングされたモデルと同じようなパフォーマンスを達成することができる。
有効性に関しては、同じトークン量でトレーニングされた場合、MASSによって選択されたデータに基づいてトレーニングされたモデルは、元のデータセットでトレーニングされたデータよりも3.3\%から5.9\%向上する。
これらの結果は, プレトレーニングLDMの効率と有効性を改善するためにMASSの可能性を裏付けるものである。
関連論文リスト
- Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。