論文の概要: Is a Document Educational or Just Wikipedia-Style? -- Pitfalls of Classifier-Based Quality Filtering
- arxiv url: http://arxiv.org/abs/2605.23721v1
- Date: Thu, 21 May 2026 08:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.403497
- Title: Is a Document Educational or Just Wikipedia-Style? -- Pitfalls of Classifier-Based Quality Filtering
- Title(参考訳): 文書は教育的か単なるウィキペディアスタイルか -- 分類器に基づく品質フィルタリングの落とし穴
- Authors: Mateusz Klimaszewski, Piotr Andruszkiewicz,
- Abstract要約: 簡単なウィキペディアスタイルの改定操作によって、モデルの品質評価が変更され、低品質のコンテンツがフィルタリングしきい値を超えることができることを示す。
分析の結果,FineWeb-Edu CQFモデルでは,評価文書の約7%でフィルタリング決定を逆転し,事前学習したコーパスに内容が付与されることが判明した。
- 参考スコア(独自算出の注目度): 3.652476935949179
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Classifier-based Quality Filtering has recently emerged as a fundamental technique in constructing pre-training corpora. The ability to deploy a single model that can replace or supplement a set of heuristics has proven effective across numerous Large Language Models. In this work, we expose a critical vulnerability in this approach by demonstrating how a straightforward Wikipedia-style reformatting operation can substantially alter a model's quality assessment and enable low-quality content to surpass filtering thresholds. Our analysis reveals that the FineWeb-Edu CQF model would reverse its filtering decision for approximately 7% of evaluated documents, thereby admitting content into the pre-training corpus that would otherwise have been excluded.
- Abstract(参考訳): 分類器に基づく品質フィルタリングは、最近、事前学習コーパスを構築するための基礎技術として登場した。
ヒューリスティックの集合を置き換えたり補ったりできる単一のモデルをデプロイする能力は、多数の大規模言語モデルで有効であることが証明されている。
本研究では,簡単なウィキペディアスタイルの改定操作によってモデルの品質評価が大幅に変化し,低品質コンテンツがフィルタリングしきい値を超えることを実証することにより,このアプローチにおける重大な脆弱性を明らかにする。
分析の結果,FineWeb-Edu CQFモデルでは,評価文書の約7%でフィルタリング決定を逆転し,事前学習したコーパスに内容が付与されることが判明した。
関連論文リスト
- Not Every Subject Should Stay: Machine Unlearning for Noisy Engagement Recognition [53.005382593686356]
エンゲージメント認識データセットは典型的には主観的インデクシングであり、しばしば騒々しく主観的な監督を含んでいる。
本研究では、この設定を、エンゲージメント認識のためのポストホック衛生機構として、主観レベルマシンアンラーニングを通して研究する。
論文 参考訳(メタデータ) (2026-05-06T10:03:06Z) - Classifier Reconstruction Through Counterfactual-Aware Wasserstein Prototypes [7.568155070224663]
モデル再構成は,両クラスに代表されるサンプルが少なくても,偽物が情報として機能することを認識することで,大幅に改善できることを実証する。
本稿では, ワッサーシュタイン・バリセンタを用いて, 原データと対実データを統合する手法を提案する。
論文 参考訳(メタデータ) (2025-12-11T18:06:49Z) - Delete and Retain: Efficient Unlearning for Document Classification [1.0026496861838448]
Hessian Reassignmentは、文書分類におけるクラスアンラーニングのための2段階のモデルに依存しないソリューションである。
標準のテキストベンチマークでは、Hessian Reassignmentはクラスの精度をフルアズアウトクラスに近く保ちながら、桁違いに高速に実行した。
その結果、文書分類における効率的なクラスアンラーニングへの実践的で原則化された道筋が示される。
論文 参考訳(メタデータ) (2025-12-06T18:57:06Z) - ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Data Redaction from Conditional Generative Models [38.479256505860825]
我々は、すでに訓練済みの条件生成モデルをポスト編集して、高い確率で、望ましくない内容をもたらすような条件を再現する方法について研究する。
我々は,テキスト・ツー・イメージ・モデルにおけるリアクション・プロンプトと音声のリアクション・プロンプトについて実験を行った。
論文 参考訳(メタデータ) (2023-05-18T23:58:53Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Mitigating harm in language models with conditional-likelihood
filtration [4.002298833349518]
本稿では,Webスケールの未フィルタリングデータセットから有害なビューを特定する手法を提案する。
このフィルタデータセットでトレーニングされたモデルは、有害なテキストを生成するための妥当性が低いことを実証する。
我々はまた、研究者がそれぞれの値とより密に整合した言語モデルを構築するために、特定の値が利用できるフレーズをトリガーする方法についても論じる。
論文 参考訳(メタデータ) (2021-08-04T22:18:10Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。