論文の概要: SIEVE: General Purpose Data Filtering System Matching GPT-4o Accuracy at 1% the Cost
- arxiv url: http://arxiv.org/abs/2410.02755v2
- Date: Tue, 8 Oct 2024 18:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 06:04:22.345800
- Title: SIEVE: General Purpose Data Filtering System Matching GPT-4o Accuracy at 1% the Cost
- Title(参考訳): SIEVE: GPT-4oの精度を1%のコストでマッチングする汎用データフィルタリングシステム
- Authors: Jifan Zhang, Robert Nowak,
- Abstract要約: SIEVEは、GPT-4oの精度を少しのコストで一致させる軽量フィルタである。
我々は,5つの高度にカスタマイズされたフィルタタスクを用いて,OpenWebTextデータセット上でSIEVEを実験的に検証した。
本研究は,言語モデル学習のための大規模かつ高品質なデータセットのキュレーションにおいて,本手法の有効性と効率性を示すものである。
- 参考スコア(独自算出の注目度): 8.406910685074134
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Creating specialized large language models requires vast amounts of clean, special purpose data for training and fine-tuning. With only a handful of existing large-scale, domain-specific datasets, creation of new datasets is required in most applications. This requires the development of new application-specific filtering of web-scale data. Filtering with a high-performance, general-purpose LLM such as GPT-4o can be highly effective, but this is extremely expensive at web-scale. This paper proposes SIEVE, a lightweight alternative that matches GPT-4o accuracy at a fraction of the cost. SIEVE can perform up to 500 filtering operations for the cost of one GPT-4o filtering call. The key to SIEVE is a seamless integration of GPT-4o and lightweight T5 models, using active learning to fine-tune T5 in the background with a small number of calls to GPT-4o. Once trained, it performs as well as GPT-4o at a tiny fraction of the cost. We experimentally validate SIEVE on the OpenWebText dataset, using five highly customized filter tasks targeting high quality and domain-specific content. Our results demonstrate the effectiveness and efficiency of our method in curating large, high-quality datasets for language model training at a substantially lower cost (1%) than existing techniques. To further validate SIEVE, experiments show that SIEVE and GPT-4o achieve similar accuracy, with human evaluators preferring SIEVE's filtering results to those of GPT-4o.
- Abstract(参考訳): 専門的な大規模言語モデルを作成するには、トレーニングと微調整のために大量のクリーンで特別なデータが必要である。
既存の大規模なドメイン固有のデータセットのごく一部だけで、ほとんどのアプリケーションで新しいデータセットを作成する必要がある。
これは、Webスケールデータの新しいアプリケーション固有のフィルタリングを開発する必要がある。
GPT-4o などの高性能汎用 LLM によるフィルタリングは非常に効果的であるが,Web スケールでは極めて高価である。
本稿では,GPT-4oの精度を若干のコストで一致させる軽量な代替手段であるSIEVEを提案する。
SIEVEは最大500個のフィルタリング処理を実行でき、1つのGPT-4oフィルタリングコールのコストがかかる。
SIEVEの鍵となるのは、GPT-4oと軽量T5モデルのシームレスな統合であり、アクティブラーニングを使用してバックグラウンドでT5を微調整し、少数のGPT-4oを呼び出す。
トレーニングが完了すると、GPT-4oと同様に、わずかなコストで動作します。
高品質でドメイン固有のコンテンツを対象とした5つの高度にカスタマイズされたフィルタタスクを用いて、OpenWebTextデータセット上でSIEVEを実験的に検証する。
本研究は,言語モデル学習のための大規模かつ高品質なデータセットを,既存の手法よりも大幅に低コスト(1%)でキュレートする手法の有効性と効率を実証するものである。
SIEVEをさらに検証するために、実験によりSIEVEとGPT-4oが同様の精度を達成できることが示され、人間の評価者はSIEVEのフィルタリング結果をGPT-4oより好んでいる。
関連論文リスト
- Multi-stage Large Language Model Pipelines Can Outperform GPT-4o in Relevance Assessment [6.947361774195549]
関連性評価タスクを複数の段階に分割するモジュール分類パイプラインを提案する。
我々のアプローチの1つは、OpenAIのGPT-4o miniよりも18.4%のKrippendorffの$alpha$精度が向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T07:33:39Z) - FinerWeb-10BT: Refining Web Data with LLM-Based Line-Level Filtering [2.0140381995251713]
本稿では,LLMに基づくラインレベルのフィルタリング手法を導入し,トレーニングデータの品質を向上させる。
我々は、GPT-4o miniを使用して、FineWebから2万のドキュメントサンプルをラインレベルでラベル付けし、低品質の行に対して記述的なラベルを作成できるようにします。
フィルタリングの影響をテストするため、元のデータセットとフィルタリングデータセットの両方でGPT-2モデルをトレーニングする。
論文 参考訳(メタデータ) (2025-01-13T13:26:50Z) - Phi-4 Technical Report [72.06109095293243]
本研究では,データ品質に重点を置いた14ビリオンパラメータ言語モデル phi-4 を提案する。
多くの言語モデルとは異なり、事前学習は主にWebコンテンツやコードなどの有機データソースに基づいており、phi-4はトレーニングプロセス全体を通して戦略的に合成データを組み込んでいる。
論文 参考訳(メタデータ) (2024-12-12T03:37:41Z) - Leveraging Web-Crawled Data for High-Quality Fine-Tuning [24.19939701706869]
我々は、GPT-4のような先進的なモデルに頼ることなく、高品質な教師付き微調整のための貴重な情報源として、Webcrawled Dataが有効であると主張している。
我々は、Webcrawledデータをより小さな高品質なデータ集合と整列させることで、ペア化されたトレーニングデータセットを自動生成する。
実験の結果, モデル変換データを用いた学習は, 中国における数学問題の平均スコア9.4%で, 高品質なデータのみによるトレーニングを上回り, より良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-15T08:12:52Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4 [14.248735997950446]
InstructionGPT-4は200のサンプルからなる小さなデータセット上で微調整される。
これらの指標に基づいて,低品質の視覚言語データを自動的に識別・フィルタリングする,効果的で訓練可能なデータセレクタを提案する。
この結果から,マルチモーダルな大規模言語モデルがより優れた出力を生成するためには,低品質な命令調律データが効率的であることが示唆された。
論文 参考訳(メタデータ) (2023-08-23T11:27:30Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。