Fugu-MT 論文翻訳(概要): FinerWeb-10BT: Refining Web Data with LLM-Based Line-Level Filtering

論文の概要: FinerWeb-10BT: Refining Web Data with LLM-Based Line-Level Filtering

arxiv url: http://arxiv.org/abs/2501.07314v1
Date: Mon, 13 Jan 2025 13:26:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 21:19:24.970132
Title: FinerWeb-10BT: Refining Web Data with LLM-Based Line-Level Filtering
Title（参考訳）: FinerWeb-10BT: LLMベースのLine-LevelフィルタでWebデータを精錬する
Authors: Erik Henriksson, Otto Tarkka, Filip Ginter,
Abstract要約: 本稿では,LLMに基づくラインレベルのフィルタリング手法を導入し,トレーニングデータの品質を向上させる。我々は、GPT-4o miniを使用して、FineWebから2万のドキュメントサンプルをラインレベルでラベル付けし、低品質の行に対して記述的なラベルを作成できるようにします。フィルタリングの影響をテストするため、元のデータセットとフィルタリングデータセットの両方でGPT-2モデルをトレーニングする。
参考スコア（独自算出の注目度）: 2.0140381995251713
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data quality is crucial for training Large Language Models (LLMs). Traditional heuristic filters often miss low-quality text or mistakenly remove valuable content. In this paper, we introduce an LLM-based line-level filtering method to enhance training data quality. We use GPT-4o mini to label a 20,000-document sample from FineWeb at the line level, allowing the model to create descriptive labels for low-quality lines. These labels are grouped into nine main categories, and we train a DeBERTa-v3 classifier to scale the filtering to a 10B-token subset of FineWeb. To test the impact of our filtering, we train GPT-2 models on both the original and the filtered datasets. The results show that models trained on the filtered data achieve higher accuracy on the HellaSwag benchmark and reach their performance targets faster, even with up to 25\% less data. This demonstrates that LLM-based line-level filtering can significantly improve data quality and training efficiency for LLMs. We release our quality-annotated dataset, FinerWeb-10BT, and the codebase to support further work in this area.
Abstract（参考訳）: データ品質は、大規模言語モデル(LLM)のトレーニングに不可欠である。従来のヒューリスティックフィルタは、低品質のテキストを見逃したり、誤って貴重なコンテンツを削除したりすることが多い。本稿では,LLMに基づくラインレベルのフィルタリング手法を導入し,トレーニングデータの品質を向上させる。我々は、GPT-4o miniを使用して、FineWebから2万のドキュメントサンプルをラインレベルでラベル付けし、低品質の行に対して記述的なラベルを作成できるようにします。これらのラベルは9つの主要なカテゴリに分類され、ファイナルWebの10BのサブセットにフィルタリングをスケールするためにDeBERTa-v3分類器を訓練します。フィルタリングの影響をテストするため、元のデータセットとフィルタリングデータセットの両方でGPT-2モデルをトレーニングする。その結果、フィルタされたデータに基づいてトレーニングされたモデルは、HellaSwagベンチマークで高い精度を実現し、最大25%の少ないデータでも、パフォーマンス目標を達成することができた。このことはLLMベースのラインレベルのフィルタリングがLLMのデータ品質とトレーニング効率を大幅に改善できることを証明している。品質アノテートされたデータセットであるFinerWeb-10BTと、この領域でさらなる作業をサポートするためのコードベースをリリースします。

関連論文リスト

Trust the Model: Compact VLMs as In-Context Judges for Image-Text Data Quality [5.750869893508341]
視覚言語モデル(VLM)は、視覚データを統合することで従来の大規模言語モデルを拡張し、よりリッチなマルチモーダル推論を可能にする。高品質な画像キャプチャアノテートデータセットを微調整した,コンパクトなVLMを用いた合理化データフィルタリングフレームワークを提案する。このモデルは、キャプションと画像品質とアライメントに基づいて、潜在的トレーニングサンプルを効果的に評価し、フィルタリングする。
論文参考訳（メタデータ） (2025-07-27T07:20:25Z)
Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [107.24906866038431]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。高品質な原文と書き直しテキストが混在すると,22のタスクでそれぞれ1.0,1.3,2.5のパーセンテージが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T07:12:12Z)
Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data [43.539306138403695]
LLMトレーニングにおけるデータの影響を迅速に評価できる効率的な検証戦略を提案する。本稿では,効率的なデータフィルタリングパイプラインを提案し,フィルタ効率を向上し,実験と推論のコストを削減する。フィルタリングパイプラインを、広く使われている2つの事前学習コーパス、FinWebと中国のFinWebデータセットに適用することに成功しました。
論文参考訳（メタデータ） (2025-05-08T17:15:20Z)
GneissWeb: Preparing High Quality Data for LLMs at Scale [15.596915267015797]
GneissWebは10兆トークンの巨大なデータセットです。 GneissWebはデータ品質と量の間の良好なトレードオフを達成する。我々は、GneissWebデータセットを使用してトレーニングされたモデルが、FineWeb-V1.1.0でトレーニングされたモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2025-02-19T00:14:29Z)
GPT-4o as the Gold Standard: A Scalable and General Purpose Approach to Filter Language Model Pretraining Data [12.13180744190893]
GPT-4oは、高品質なトレーニングデータを特定するのに極めて効果的であるが、その禁止費用は、Webスケールでは実用的ではない。本稿では,GPT-4oの精度を1%以下で一致させる軽量な代替手段であるSIEVEを提案する。
論文参考訳（メタデータ） (2024-10-03T17:58:29Z)
Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文参考訳（メタデータ） (2024-09-09T17:23:29Z)
ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文参考訳（メタデータ） (2024-08-15T17:59:30Z)
Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文参考訳（メタデータ） (2024-06-07T04:52:46Z)
A Systematic Investigation of Distilling Large Language Models into Cross-Encoders for Passage Re-ranking [79.35822270532948]
大規模言語モデル (LLM) から蒸留したクロスエンコーダは、手動でラベル付けされたデータに微調整されたクロスエンコーダよりも効果的であることが多い。我々は新しい蒸留データセットである Rank-DistiLLM を構築し,リリースする。
論文参考訳（メタデータ） (2024-05-13T16:51:53Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters [38.41887207958015]
微調整多モーダル言語モデル(MLM)を利用した画像テキストデータのフィルタリングのための新しいフレームワークを提案する。我々のフィルタは、異なるモデルやタスクに一般化することができ、CLIPScoreのドロップイン代替として使用することができる。
論文参考訳（メタデータ） (2024-03-05T06:05:15Z)
Your Vision-Language Model Itself Is a Strong Filter: Towards High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文参考訳（メタデータ） (2024-02-19T20:08:48Z)
Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning [43.10197671420528]
より小さく弱いモデルを使って、より大きくより強いモデルを微調整できるだろうか? これにより、より小さく、より効率的なモデルを使用して、より大きな言語モデルをトレーニングするために使用される命令データをフィルタリングすることができる。主にデータフィルタリングを高速化するだけでなく、フィルタリングされたデータ精細のLLMは、標準ベンチマークでさらにパフォーマンスが向上する。
論文参考訳（メタデータ） (2024-02-01T11:57:53Z)
Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文参考訳（メタデータ） (2023-09-29T17:37:29Z)
Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。 DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文参考訳（メタデータ） (2023-02-06T23:57:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。