論文の概要: The Data-Quality Illusion: Rethinking Classifier-Based Quality Filtering for LLM Pretraining
- arxiv url: http://arxiv.org/abs/2510.00866v2
- Date: Thu, 02 Oct 2025 12:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.574749
- Title: The Data-Quality Illusion: Rethinking Classifier-Based Quality Filtering for LLM Pretraining
- Title(参考訳): データ品質 Illusion: LLM事前学習のための分類器に基づく品質フィルタリングの再考
- Authors: Thiziri Nait Saada, Louis Bethune, Michal Klein, David Grangier, Marco Cuturi, Pierre Ablin,
- Abstract要約: 大規模モデルは、混在する品質のドキュメントを含む大規模なWebクローリングデータセットで事前訓練される。
一般的な方法は品質フィルタリング(CQF)であり、バイナリ分類器を訓練して事前学習データと小型で高品質なデータセットを区別する。
CQFは下流のタスク性能を改善するが、高品質なデータセットにおける言語モデリングを必ずしも強化するわけではない。
- 参考スコア(独自算出の注目度): 40.47040485308427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale models are pretrained on massive web-crawled datasets containing documents of mixed quality, making data filtering essential. A popular method is Classifier-based Quality Filtering (CQF), which trains a binary classifier to distinguish between pretraining data and a small, high-quality set. It assigns each pretraining document a quality score defined as the classifier's score and retains only the top-scoring ones. We provide an in-depth analysis of CQF. We show that while CQF improves downstream task performance, it does not necessarily enhance language modeling on the high-quality dataset. We explain this paradox by the fact that CQF implicitly filters the high-quality dataset as well. We further compare the behavior of models trained with CQF to those trained on synthetic data of increasing quality, obtained via random token permutations, and find starkly different trends. Our results challenge the view that CQF captures a meaningful notion of data quality.
- Abstract(参考訳): 大規模モデルは、混在する品質のドキュメントを含む大規模なWebクローリングデータセットで事前訓練されており、データのフィルタリングが不可欠である。
一般的な方法は分類器ベースの品質フィルタリング(CQF)であり、二項分類器を訓練して事前学習データと小型で高品質なデータセットを区別する。
各事前学習文書に分類器のスコアとして定義された品質スコアを割り当て、上位のスコアのみを保持する。
CQFの詳細な分析を行う。
CQFは下流のタスク性能を改善するが、高品質なデータセットにおける言語モデリングを必ずしも強化するわけではない。
このパラドックスは、CQFが暗黙的に高品質なデータセットをフィルタリングするという事実から説明します。
さらに、CQFでトレーニングしたモデルの挙動を、品質の上昇、ランダムなトークンの置換によって得られた合成データに基づいてトレーニングしたモデルと比較し、非常に異なる傾向を見出した。
我々の結果は、CQFがデータ品質の有意義な概念を捉えているという見解に挑戦する。
関連論文リスト
- Train a Unified Multimodal Data Quality Classifier with Synthetic Data [56.872668770081766]
マルチモーダル大言語モデル(MLLM)は、画像テキストキャプションデータとインターリーブド文書データの混合に基づいて、継続的に事前訓練される。
我々は,高品質な画像文キャプションとインターリーブデータの両方をフィルタリングするために,一元的マルチモーダルデータ品質として効率的なMLLMを訓練することを提案する。
論文 参考訳(メタデータ) (2025-10-16T21:53:28Z) - Exploring Instruction Data Quality for Explainable Image Quality Assessment [58.345719195248314]
説明可能なIQAのための指導調律データセットにおけるデータ品質の役割について検討する。
データセットのサブセットをランダムに選択することで、インストラクションチューニングデータセット全体のトレーニングよりも優れた結果が得られます。
本稿では,クラスタリング特徴抽出,クラスタクォータ割り当て,クラスタサンプリング戦略の3段階からなるクラスタリングに基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-04T17:12:54Z) - Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。
我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。
既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - DataMan: Data Manager for Pre-training Large Language Models [39.677609311769146]
既存の方法は限定的な直観に依存しており、包括的で明確なガイドラインを欠いている。
テキストパープレキシティ異常の原因から14の品質基準を導出し、ドメイン混合をサポートするために15の共通アプリケーションドメインを導入する。
実験では、DataManを使って30Bトークンを選択し、1.3B-パラメータ言語モデルをトレーニングし、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-26T18:01:19Z) - CritiQ: Mining Data Quality Criteria from Human Preferences [91.44025907584931]
人間の嗜好からデータ品質の基準を自動的にマイニングする新しいデータ選択手法であるCritiQを紹介する。
CritiQ Flowはマネージャエージェントを使用して品質基準を進化させ、ワーカーエージェントはペアで判断する。
コード,数学,論理領域において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-26T16:33:41Z) - ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - SCAR: Data Selection via Style Consistency-Aware Response Ranking for Efficient Instruction-Tuning of Large Language Models [56.93151679231602]
本研究は, 応答における2つの重要なスタイル的要素, 言語形式と指導的前提を同定する。
これに触発されて、スタイル一貫性対応対応ランキング(SCAR)を導入する。
SCARは、そのレスポンススタイリスティックな一貫性に基づいて、トレーニングセット内の命令-レスポンスペアを優先順位付けする。
論文 参考訳(メタデータ) (2024-06-16T10:10:37Z) - Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering [10.624293689624151]
我々は、ソースの品質向上と属性応答性向上のために、LLM(Large Language Models)を頑健に微調整する方法について検討する。
具体的には、自動データ品質フィルタを備えたデータ生成パイプラインを導入し、多様な高品質なトレーニングおよびテストデータを大規模に合成する。
総合評価の結果, 合成データの微調整により, 内分布と外分布の両方の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-13T08:12:48Z) - There's no Data Like Better Data: Using QE Metrics for MT Data Filtering [25.17221095970304]
ニューラルネットワーク翻訳システム(NMT)のトレーニングデータにおいて、品質の悪い文対をフィルタリングするためにQEメトリクスを使用した場合の生存可能性について分析する。
トレーニングデータ中の高品質な文ペアを選択することで、トレーニングサイズを半分に減らしながら翻訳品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-09T13:21:34Z) - Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video
Quality Assessment [25.5501280406614]
近年,映像品質評価 (VQA) が注目されている。
大規模VQAデータセットのアノテートに大きな費用が、現在のディープラーニング手法の主な障害となっている。
Ada-DQA(Adaptive Diverse Quality-Aware Feature Acquisition)フレームワークは、望ましい品質関連の特徴を捉えるために提案されている。
論文 参考訳(メタデータ) (2023-08-01T16:04:42Z) - A Quality Aware Sample-to-Sample Comparison for Face Recognition [13.96448286983864]
この研究は、サンプルレベルで品質を意識した学習プロセスを分類訓練パラダイム(QAFace)に統合する。
本手法は,トレーニングデータセットの認識可能な低品質サンプルに適応的に注目する。
論文 参考訳(メタデータ) (2023-06-06T20:28:04Z) - Learning from Mixed Datasets: A Monotonic Image Quality Assessment Model [17.19991754976893]
異なるデータセットを組み合わせたIQAモデル学習のための単調ニューラルネットワークを提案する。
特に,本モデルは,データセット共有品質回帰器と,データセット固有の品質変換器から構成される。
論文 参考訳(メタデータ) (2022-09-21T15:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。