論文の概要: Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling
- arxiv url: http://arxiv.org/abs/2604.28075v2
- Date: Fri, 01 May 2026 13:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 13:37:11.013583
- Title: Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling
- Title(参考訳): 多様性に対する繰り返し: サンプル効率の良いドイツ語モデリングのための高信号データフィルタリング
- Authors: Ansar Aynetdinov, Patrick Haller, Alan Akbik,
- Abstract要約: 我々は,5億件のWebドキュメントに適用された階層的品質フィルタを構築することで,ドイツのトレードオフを検討する。
我々の実験では、高品質なデータを繰り返すことは、より大きく、フィルタの少ないセットでのシングルパストレーニングより一貫して優れることを示した。
本研究は, 英語以外のLLMにおいて, 品質フィルタリングによる意味集中が, より効率的な言語モデリングへの道筋となることを示唆している。
- 参考スコア(独自算出の注目度): 14.166131365308793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has shown that filtering massive English web corpora into high-quality subsets significantly improves training efficiency. However, for high-resource non-English languages like German, French, or Japanese, aggressive filtering creates a strategic dilemma: should practitioners prioritize diversity by training once on large amounts of lightly filtered web data, or prioritize quality by strictly filtering for a high-quality core and repeating it over multiple epochs? We investigate this trade-off for German by constructing hierarchical quality filters applied to 500M web documents, comparing multi-epoch training on the filtered subsets against single-pass training on a diverse corpus. Our experiments across multiple model scales and token budgets show that repeating high-quality data consistently outperforms single-pass training on larger, less filtered sets. Notably, the performance gap persists even after 7 epochs. Our findings suggest that for non-English LLMs, semantic concentration through quality filtering offers a more viable path to efficient language modeling than simply maximizing unique data volume. We release our German language models (called Boldt), as well as our cleaned evaluation benchmarks to the research community. Our experiments indicate that they achieve state-of-the-art results despite training on 10-360x fewer tokens than comparable models.
- Abstract(参考訳): 近年の研究では、大規模なウェブコーパスを高品質なサブセットにフィルタリングすることで、トレーニング効率が大幅に向上することが示されている。
しかし、ドイツ語、フランス語、日本語のような高解像度の非英語言語では、積極的なフィルタリングが戦略的ジレンマを生み出している。
本研究では,5億件のWebドキュメントに適用された階層的品質フィルタを構築し,フィルタされたサブセット上でのマルチエポックトレーニングと,多様なコーパス上でのシングルパストレーニングを比較した。
複数のモデルスケールとトークンの予算にわたる実験により、高品質なデータの繰り返しは、より大きく、よりフィルタの少ないセットでのシングルパストレーニングよりも一貫して優れています。
特に、7つのエポックの後でもパフォーマンスギャップは持続する。
本研究は, 英語以外のLLMにおいて, 品質フィルタリングによる意味集中は, 単一のデータボリュームを最大化することよりも, より効率的な言語モデリングの道筋となることを示唆している。
私たちは、ドイツの言語モデル(Boldtと呼ばれる)と、クリーンな評価ベンチマークを研究コミュニティにリリースしています。
実験の結果,10~360倍のトークンをトレーニングしても,同等のモデルよりも精度が低いことが示唆された。
関連論文リスト
- Improving Romanian LLM Pretraining Data using Diversity and Quality Filtering [1.7705784090599055]
大規模言語モデル(LLM)は最近人気を博し、多くのタスクにおいて人間の能力にマッチしたり、優れたりすることが多い。
LLMをトレーニングする上で重要な要素の1つは、高品質なデータの可用性とキュレーションである。
データ品質は、高品質なコーパスが不足している、表現不足の言語にとって特に重要である。
論文 参考訳(メタデータ) (2025-11-02T21:41:49Z) - Train a Unified Multimodal Data Quality Classifier with Synthetic Data [56.872668770081766]
マルチモーダル大言語モデル(MLLM)は、画像テキストキャプションデータとインターリーブド文書データの混合に基づいて、継続的に事前訓練される。
我々は,高品質な画像文キャプションとインターリーブデータの両方をフィルタリングするために,一元的マルチモーダルデータ品質として効率的なMLLMを訓練することを提案する。
論文 参考訳(メタデータ) (2025-10-16T21:53:28Z) - Boosting Data Utilization for Multilingual Dense Retrieval [47.16651389111977]
高品質な高負のサンプルと効果的なミニバッチデータを得ることにより,多言語高密度検索におけるデータ利用率を向上させる手法を提案する。
16言語を用いた多言語検索ベンチマークであるMIRACLの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2025-09-11T13:42:50Z) - Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - Enhancing Multilingual LLM Pretraining with Model-Based Data Selection [33.68104398807581]
本稿では,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。
当社のアプローチは透明性、単純さ、効率性を重視しています。
フレームワークを20言語に拡張し、洗練された事前トレーニングデータセットをリリースします。
論文 参考訳(メタデータ) (2025-02-14T18:42:07Z) - ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。