論文の概要: DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models
- arxiv url: http://arxiv.org/abs/2410.05639v1
- Date: Tue, 8 Oct 2024 02:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 17:29:06.777395
- Title: DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models
- Title(参考訳): DecorateLM: コーパスレーティング、タグ付け、言語モデルによる編集によるデータエンジニアリング
- Authors: Ranchi Zhao, Zhen Leng Thai, Yifan Zhang, Shengding Hu, Yunqi Ba, Jie Zhou, Jie Cai, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 本稿では,データ評価,タグ付け,編集を通じて事前学習コーパスを洗練させるデータエンジニアリング手法であるDecorateLMを紹介する。
次に、DecorateLMを適用して、トレーニングコーパスの100億のトークンを強化し、さらに12億のパラメータLLMのさらなるトレーニングのために、高品質と多様性を実証する45億のトークンを選択します。
その結果、このような高品質なデータを利用することで、モデルの性能を大幅に向上させることができることが示され、事前学習コーパスの品質を高めるための強力なアプローチが示される。
- 参考スコア(独自算出の注目度): 78.51470038301436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of Large Language Models (LLMs) is substantially influenced by the pretraining corpus, which consists of vast quantities of unsupervised data processed by the models. Despite its critical role in model performance, ensuring the quality of this data is challenging due to its sheer volume and the absence of sample-level quality annotations and enhancements. In this paper, we introduce DecorateLM, a data engineering method designed to refine the pretraining corpus through data rating, tagging and editing. Specifically, DecorateLM rates texts against quality criteria, tags texts with hierarchical labels, and edits texts into a more formalized format. Due to the massive size of the pretraining corpus, adopting an LLM for decorating the entire corpus is less efficient. Therefore, to balance performance with efficiency, we curate a meticulously annotated training corpus for DecorateLM using a large language model and distill data engineering expertise into a compact 1.2 billion parameter small language model (SLM). We then apply DecorateLM to enhance 100 billion tokens of the training corpus, selecting 45 billion tokens that exemplify high quality and diversity for the further training of another 1.2 billion parameter LLM. Our results demonstrate that employing such high-quality data can significantly boost model performance, showcasing a powerful approach to enhance the quality of the pretraining corpus.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能は、モデルによって処理される膨大な量の教師なしデータからなる事前学習コーパスに大きく影響される。
モデルパフォーマンスにおける重要な役割にもかかわらず、このデータの品質を保証することは、その量とサンプルレベルの品質アノテーションや拡張が欠如しているため、難しい。
本稿では,データ評価,タグ付け,編集を通じて事前学習コーパスを洗練させるデータエンジニアリング手法であるDecorateLMを紹介する。
具体的には、DecorateLMはテキストを品質基準と比較し、階層的なラベルでテキストをタグ付けし、テキストをより形式化されたフォーマットに編集する。
プレトレーニングコーパスの大きさが大きいため、全コーパスのデコレーションにLLMを採用することは効率が良くない。
そこで我々は,大規模言語モデルを用いてDecorateLMのための微妙な注釈付きトレーニングコーパスをキュレートし,データ工学の専門知識を10億個のパラメータ小言語モデル(SLM)に抽出する。
次に、DecorateLMを適用して、トレーニングコーパスの100億のトークンを強化し、さらに12億のパラメータLLMのさらなるトレーニングのために、高品質と多様性を実証する45億のトークンを選択します。
その結果、このような高品質なデータを利用することで、モデルの性能を大幅に向上させることができることが示され、事前学習コーパスの品質を高めるための強力なアプローチが示される。
関連論文リスト
- Training LLMs for Generating IEC 61131-3 Structured Text with Online Feedback [0.0]
本稿では,学習データの品質向上を重視した大規模言語モデル(LLM)の学習手法を提案する。
このフレームワークは、産業自動化アプリケーションに非常に適しており、最先端のモデルを上回っている。
論文 参考訳(メタデータ) (2024-10-29T15:54:09Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。
本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。
経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文 参考訳(メタデータ) (2024-06-17T07:25:09Z) - SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking [56.93151679231602]
本研究は、応答における2つの重要なスタイル的要素、すなわち言語形式と意味的前提を同定する。
これに触発されて、スタイル一貫性対応対応ランキング(SCAR)を導入する。
SCARは、そのレスポンススタイリスティックな一貫性に基づいて、トレーニングセット内の命令-レスポンスペアを優先順位付けする。
論文 参考訳(メタデータ) (2024-06-16T10:10:37Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。