論文の概要: The Data-Quality Illusion: Rethinking Classifier-Based Quality Filtering for LLM Pretraining
- arxiv url: http://arxiv.org/abs/2510.00866v2
- Date: Thu, 02 Oct 2025 12:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.574749
- Title: The Data-Quality Illusion: Rethinking Classifier-Based Quality Filtering for LLM Pretraining
- Title(参考訳): データ品質 Illusion: LLM事前学習のための分類器に基づく品質フィルタリングの再考
- Authors: Thiziri Nait Saada, Louis Bethune, Michal Klein, David Grangier, Marco Cuturi, Pierre Ablin,
- Abstract要約: 大規模モデルは、混在する品質のドキュメントを含む大規模なWebクローリングデータセットで事前訓練される。
一般的な方法は品質フィルタリング(CQF)であり、バイナリ分類器を訓練して事前学習データと小型で高品質なデータセットを区別する。
CQFは下流のタスク性能を改善するが、高品質なデータセットにおける言語モデリングを必ずしも強化するわけではない。
- 参考スコア(独自算出の注目度): 40.47040485308427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale models are pretrained on massive web-crawled datasets containing documents of mixed quality, making data filtering essential. A popular method is Classifier-based Quality Filtering (CQF), which trains a binary classifier to distinguish between pretraining data and a small, high-quality set. It assigns each pretraining document a quality score defined as the classifier's score and retains only the top-scoring ones. We provide an in-depth analysis of CQF. We show that while CQF improves downstream task performance, it does not necessarily enhance language modeling on the high-quality dataset. We explain this paradox by the fact that CQF implicitly filters the high-quality dataset as well. We further compare the behavior of models trained with CQF to those trained on synthetic data of increasing quality, obtained via random token permutations, and find starkly different trends. Our results challenge the view that CQF captures a meaningful notion of data quality.
- Abstract(参考訳): 大規模モデルは、混在する品質のドキュメントを含む大規模なWebクローリングデータセットで事前訓練されており、データのフィルタリングが不可欠である。
一般的な方法は分類器ベースの品質フィルタリング(CQF)であり、二項分類器を訓練して事前学習データと小型で高品質なデータセットを区別する。
各事前学習文書に分類器のスコアとして定義された品質スコアを割り当て、上位のスコアのみを保持する。
CQFの詳細な分析を行う。
CQFは下流のタスク性能を改善するが、高品質なデータセットにおける言語モデリングを必ずしも強化するわけではない。
このパラドックスは、CQFが暗黙的に高品質なデータセットをフィルタリングするという事実から説明します。
さらに、CQFでトレーニングしたモデルの挙動を、品質の上昇、ランダムなトークンの置換によって得られた合成データに基づいてトレーニングしたモデルと比較し、非常に異なる傾向を見出した。
我々の結果は、CQFがデータ品質の有意義な概念を捉えているという見解に挑戦する。
関連論文リスト
- Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。
我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。
既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - DataMan: Data Manager for Pre-training Large Language Models [39.677609311769146]
既存の方法は限定的な直観に依存しており、包括的で明確なガイドラインを欠いている。
テキストパープレキシティ異常の原因から14の品質基準を導出し、ドメイン混合をサポートするために15の共通アプリケーションドメインを導入する。
実験では、DataManを使って30Bトークンを選択し、1.3B-パラメータ言語モデルをトレーニングし、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-26T18:01:19Z) - CritiQ: Mining Data Quality Criteria from Human Preferences [91.44025907584931]
人間の嗜好からデータ品質の基準を自動的にマイニングする新しいデータ選択手法であるCritiQを紹介する。
CritiQ Flowはマネージャエージェントを使用して品質基準を進化させ、ワーカーエージェントはペアで判断する。
コード,数学,論理領域において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-26T16:33:41Z) - ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - SCAR: Data Selection via Style Consistency-Aware Response Ranking for Efficient Instruction-Tuning of Large Language Models [56.93151679231602]
本研究は, 応答における2つの重要なスタイル的要素, 言語形式と指導的前提を同定する。
これに触発されて、スタイル一貫性対応対応ランキング(SCAR)を導入する。
SCARは、そのレスポンススタイリスティックな一貫性に基づいて、トレーニングセット内の命令-レスポンスペアを優先順位付けする。
論文 参考訳(メタデータ) (2024-06-16T10:10:37Z) - Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering [10.624293689624151]
我々は、ソースの品質向上と属性応答性向上のために、LLM(Large Language Models)を頑健に微調整する方法について検討する。
具体的には、自動データ品質フィルタを備えたデータ生成パイプラインを導入し、多様な高品質なトレーニングおよびテストデータを大規模に合成する。
総合評価の結果, 合成データの微調整により, 内分布と外分布の両方の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-13T08:12:48Z) - A Quality Aware Sample-to-Sample Comparison for Face Recognition [13.96448286983864]
この研究は、サンプルレベルで品質を意識した学習プロセスを分類訓練パラダイム(QAFace)に統合する。
本手法は,トレーニングデータセットの認識可能な低品質サンプルに適応的に注目する。
論文 参考訳(メタデータ) (2023-06-06T20:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。