論文の概要: GPT-4o as the Gold Standard: A Scalable and General Purpose Approach to Filter Language Model Pretraining Data
- arxiv url: http://arxiv.org/abs/2410.02755v3
- Date: Fri, 31 Jan 2025 18:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:59:51.090947
- Title: GPT-4o as the Gold Standard: A Scalable and General Purpose Approach to Filter Language Model Pretraining Data
- Title(参考訳): ゴールドスタンダードとしてのGPT-4o: 言語モデルの事前学習のためのスケーラブルで汎用的なアプローチ
- Authors: Jifan Zhang, Ziyue Luo, Jia Liu, Ness Shroff, Robert Nowak,
- Abstract要約: GPT-4oは、高品質なトレーニングデータを特定するのに極めて効果的であるが、その禁止費用は、Webスケールでは実用的ではない。
本稿では,GPT-4oの精度を1%以下で一致させる軽量な代替手段であるSIEVEを提案する。
- 参考スコア(独自算出の注目度): 12.13180744190893
- License:
- Abstract: Large language models require vast amounts of high-quality training data, but effective filtering of web-scale datasets remains a significant challenge. This paper demonstrates that GPT-4o is remarkably effective at identifying high-quality training data, but its prohibitive cost makes it impractical at web-scale. We propose SIEVE, a lightweight alternative that matches GPT-4o accuracy at less than 1\% of the cost. SIEVE can perform up to 500 filtering operations for the cost of one GPT-4o filtering call. The key to SIEVE is a seamless integration of GPT-4o and lightweight text classification models, using active learning to fine-tune these models in the background with a small number of calls to GPT-4o. Once trained, it performs as well as GPT-4o at a tiny fraction of the cost. Through different filtering prompts, SIEVE can efficiently curate high quality data for general or specialized domains from web-scale corpora -- a valuable capability given the current scarcity of high-quality domain-specific datasets. Extensive experiments using automatic and human evaluation metrics show that SIEVE and GPT-4o achieve similar performance on five highly specific filtering prompts. In addition, when performing quality filtering on web crawl datasets, we demonstrate SIEVE can further improve over state-of-the-art quality filtering methods in the DataComp-LM challenge for selecting LLM pretraining data.
- Abstract(参考訳): 大規模な言語モデルは大量の高品質なトレーニングデータを必要とするが、Webスケールデータセットの効果的なフィルタリングは依然として大きな課題である。
本稿では,GPT-4oが高品質なトレーニングデータの識別に極めて有効であることを示す。
本稿では,GPT-4oの精度を1/%以下で一致させる軽量な代替手段であるSIEVEを提案する。
SIEVEは最大500個のフィルタリング処理を実行でき、1つのGPT-4oフィルタリングコールのコストがかかる。
SIEVEの鍵は、GPT-4oと軽量テキスト分類モデルのシームレスな統合であり、アクティブラーニングを使用してこれらのモデルをバックグラウンドで微調整し、少数のGPT-4oを呼び出すことである。
トレーニングが完了すると、GPT-4oと同様に、わずかなコストで動作します。
さまざまなフィルタリングプロンプトを通じて、SIEVEはWebスケールコーパスから、一般的なドメインや専門ドメインの高品質なデータを効率的にキュレートすることができる。
SIEVEとGPT-4oは、5つの高度に特定されたフィルタリングプロンプトで同様の性能を発揮することを示す。
さらに,Webクローリングデータセット上で品質フィルタリングを行う場合,SIEVEは,LLM事前学習データを選択する上でのDataComp-LMチャレンジにおいて,最先端の品質フィルタリング方法よりもさらに改善できることを実証する。
関連論文リスト
- Multi-stage Large Language Model Pipelines Can Outperform GPT-4o in Relevance Assessment [6.947361774195549]
関連性評価タスクを複数の段階に分割するモジュール分類パイプラインを提案する。
我々のアプローチの1つは、OpenAIのGPT-4o miniよりも18.4%のKrippendorffの$alpha$精度が向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T07:33:39Z) - FinerWeb-10BT: Refining Web Data with LLM-Based Line-Level Filtering [2.0140381995251713]
本稿では,LLMに基づくラインレベルのフィルタリング手法を導入し,トレーニングデータの品質を向上させる。
我々は、GPT-4o miniを使用して、FineWebから2万のドキュメントサンプルをラインレベルでラベル付けし、低品質の行に対して記述的なラベルを作成できるようにします。
フィルタリングの影響をテストするため、元のデータセットとフィルタリングデータセットの両方でGPT-2モデルをトレーニングする。
論文 参考訳(メタデータ) (2025-01-13T13:26:50Z) - Phi-4 Technical Report [72.06109095293243]
本研究では,データ品質に重点を置いた14ビリオンパラメータ言語モデル phi-4 を提案する。
多くの言語モデルとは異なり、事前学習は主にWebコンテンツやコードなどの有機データソースに基づいており、phi-4はトレーニングプロセス全体を通して戦略的に合成データを組み込んでいる。
論文 参考訳(メタデータ) (2024-12-12T03:37:41Z) - Leveraging Web-Crawled Data for High-Quality Fine-Tuning [24.19939701706869]
我々は、GPT-4のような先進的なモデルに頼ることなく、高品質な教師付き微調整のための貴重な情報源として、Webcrawled Dataが有効であると主張している。
我々は、Webcrawledデータをより小さな高品質なデータ集合と整列させることで、ペア化されたトレーニングデータセットを自動生成する。
実験の結果, モデル変換データを用いた学習は, 中国における数学問題の平均スコア9.4%で, 高品質なデータのみによるトレーニングを上回り, より良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-15T08:12:52Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4 [14.248735997950446]
InstructionGPT-4は200のサンプルからなる小さなデータセット上で微調整される。
これらの指標に基づいて,低品質の視覚言語データを自動的に識別・フィルタリングする,効果的で訓練可能なデータセレクタを提案する。
この結果から,マルチモーダルな大規模言語モデルがより優れた出力を生成するためには,低品質な命令調律データが効率的であることが示唆された。
論文 参考訳(メタデータ) (2023-08-23T11:27:30Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。