論文の概要: Aleph-Alpha-GermanWeb: Improving German-language LLM pre-training with model-based data curation and synthetic data generation
- arxiv url: http://arxiv.org/abs/2505.00022v2
- Date: Fri, 23 May 2025 07:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.973035
- Title: Aleph-Alpha-GermanWeb: Improving German-language LLM pre-training with model-based data curation and synthetic data generation
- Title(参考訳): Aleph-Alpha-GermanWeb: モデルに基づくデータキュレーションと合成データ生成によるドイツ語LLM事前学習の改善
- Authors: Thomas F Burns, Letitia Parcalabescu, Stephan Wäldchen, Michael Barlow, Gregor Ziegltrum, Volker Stampa, Bastian Harren, Björn Deiseroth,
- Abstract要約: 本稿では,モデルに基づくフィルタリング手法と合成データ生成を組み合わせたドイツ語データセットパイプラインを提案する。
パイプラインを使用して、大規模なドイツの事前トレーニングデータセットであるAleph-Alpha-GermanWebを作成します。
MMMLUを含むドイツ語のベンチマークの比較では、FineWeb2だけでAleph-Alpha-GermanWebのパフォーマンスが大幅に向上している。
- 参考スコア(独自算出の注目度): 6.6723686572805185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling data quantity is essential for large language models (LLMs), yet recent findings show that data quality can significantly boost performance and training efficiency. We introduce a German-language dataset curation pipeline that combines heuristic and model-based filtering techniques with synthetic data generation. We use our pipeline to create Aleph-Alpha-GermanWeb, a large-scale German pre-training dataset which draws from: (1) Common Crawl web data, (2) FineWeb2, and (3) synthetically-generated data conditioned on actual, organic web data. We evaluate our dataset by pre-training both a 1B Llama-style model and an 8B tokenizer-free hierarchical autoregressive transformer (HAT). A comparison on German-language benchmarks, including MMMLU, shows significant performance gains of Aleph-Alpha-GermanWeb over FineWeb2 alone. This advantage holds at the 8B scale even when FineWeb2 is enriched by human-curated high-quality data sources such as Wikipedia. Our findings support the growing body of evidence that model-based data curation and synthetic data generation can significantly enhance LLM pre-training datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)では,データ量のスケーリングが不可欠だが,最近の研究結果から,データ品質がパフォーマンスとトレーニング効率を大幅に向上することが示された。
本稿では,ヒューリスティックおよびモデルに基づくフィルタリング技術と合成データ生成を組み合わせた,ドイツ語のデータセットキュレーションパイプラインを提案する。
Aleph-Alpha-GermanWebは,(1)コモンクローリングWebデータ,(2)ファインWeb2,(3)有機Webデータに基づく合成生成データから抽出した大規模ドイツの事前学習データセットである。
1B Llama型モデルと8Bトークンエータフリーの階層的自己回帰トランス (HAT) の両方を事前学習することでデータセットを評価する。
MMMLUを含むドイツ語のベンチマークの比較では、FineWeb2だけでAleph-Alpha-GermanWebのパフォーマンスが大幅に向上している。
この利点は、FenWeb2がウィキペディアのような人間のキュレートされた高品質なデータソースによって豊かにされている場合でも、8Bスケールで成り立つ。
我々の研究は、モデルベースのデータキュレーションと合成データ生成がLLM事前学習データセットを大幅に強化できるという証拠の増大を支えている。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Few-shot LLM Synthetic Data with Distribution Matching [37.55363714371521]
大規模言語モデル(LLM)は、より小さなモデルの性能を高めるために高品質な合成データを生成する。
LLMの生成した合成データは、しばしばキー言語属性の実際のデータとは異なる。
鍵属性分布マッチングに基づく合成データ生成およびフィルタリングフレームワークであるSynAlignを紹介する。
論文 参考訳(メタデータ) (2025-02-09T16:43:32Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [98.92677830223786]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Zyda: A 1.3T Dataset for Open Language Modeling [10.973515151563427]
Zydaは1.3兆のトークンからなる寛容なライセンス下でのデータセットで、主要なオープンソースのデータセットを単一の高品質なコーパスに統合することによって組み立てられる。
我々の評価によると、ZydaはDolma、FinalWeb、RefinedWebといった他のオープンデータセットと競合するだけでなく、Pythiaスイートの同等モデルの性能を大幅に改善している。
論文 参考訳(メタデータ) (2024-06-04T05:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。