論文の概要: SIEVE: General Purpose Data Filtering System Matching GPT-4o Accuracy at 1% the Cost
- arxiv url: http://arxiv.org/abs/2410.02755v2
- Date: Tue, 8 Oct 2024 18:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 06:04:22.345800
- Title: SIEVE: General Purpose Data Filtering System Matching GPT-4o Accuracy at 1% the Cost
- Title(参考訳): SIEVE: GPT-4oの精度を1%のコストでマッチングする汎用データフィルタリングシステム
- Authors: Jifan Zhang, Robert Nowak,
- Abstract要約: SIEVEは、GPT-4oの精度を少しのコストで一致させる軽量フィルタである。
我々は,5つの高度にカスタマイズされたフィルタタスクを用いて,OpenWebTextデータセット上でSIEVEを実験的に検証した。
本研究は,言語モデル学習のための大規模かつ高品質なデータセットのキュレーションにおいて,本手法の有効性と効率性を示すものである。
- 参考スコア(独自算出の注目度): 8.406910685074134
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Creating specialized large language models requires vast amounts of clean, special purpose data for training and fine-tuning. With only a handful of existing large-scale, domain-specific datasets, creation of new datasets is required in most applications. This requires the development of new application-specific filtering of web-scale data. Filtering with a high-performance, general-purpose LLM such as GPT-4o can be highly effective, but this is extremely expensive at web-scale. This paper proposes SIEVE, a lightweight alternative that matches GPT-4o accuracy at a fraction of the cost. SIEVE can perform up to 500 filtering operations for the cost of one GPT-4o filtering call. The key to SIEVE is a seamless integration of GPT-4o and lightweight T5 models, using active learning to fine-tune T5 in the background with a small number of calls to GPT-4o. Once trained, it performs as well as GPT-4o at a tiny fraction of the cost. We experimentally validate SIEVE on the OpenWebText dataset, using five highly customized filter tasks targeting high quality and domain-specific content. Our results demonstrate the effectiveness and efficiency of our method in curating large, high-quality datasets for language model training at a substantially lower cost (1%) than existing techniques. To further validate SIEVE, experiments show that SIEVE and GPT-4o achieve similar accuracy, with human evaluators preferring SIEVE's filtering results to those of GPT-4o.
- Abstract(参考訳): 専門的な大規模言語モデルを作成するには、トレーニングと微調整のために大量のクリーンで特別なデータが必要である。
既存の大規模なドメイン固有のデータセットのごく一部だけで、ほとんどのアプリケーションで新しいデータセットを作成する必要がある。
これは、Webスケールデータの新しいアプリケーション固有のフィルタリングを開発する必要がある。
GPT-4o などの高性能汎用 LLM によるフィルタリングは非常に効果的であるが,Web スケールでは極めて高価である。
本稿では,GPT-4oの精度を若干のコストで一致させる軽量な代替手段であるSIEVEを提案する。
SIEVEは最大500個のフィルタリング処理を実行でき、1つのGPT-4oフィルタリングコールのコストがかかる。
SIEVEの鍵となるのは、GPT-4oと軽量T5モデルのシームレスな統合であり、アクティブラーニングを使用してバックグラウンドでT5を微調整し、少数のGPT-4oを呼び出す。
トレーニングが完了すると、GPT-4oと同様に、わずかなコストで動作します。
高品質でドメイン固有のコンテンツを対象とした5つの高度にカスタマイズされたフィルタタスクを用いて、OpenWebTextデータセット上でSIEVEを実験的に検証する。
本研究は,言語モデル学習のための大規模かつ高品質なデータセットを,既存の手法よりも大幅に低コスト(1%)でキュレートする手法の有効性と効率を実証するものである。
SIEVEをさらに検証するために、実験によりSIEVEとGPT-4oが同様の精度を達成できることが示され、人間の評価者はSIEVEのフィルタリング結果をGPT-4oより好んでいる。
関連論文リスト
- TaskComplexity: A Dataset for Task Complexity Classification with In-Context Learning, FLAN-T5 and GPT-4o Benchmarks [0.0]
本稿では,プログラムタスクを専門家に分類・割り当てすることの課題について論じる。
様々なWebサイトからタスクを抽出することによって、合計4,112のプログラミングタスクを含む新しいデータセットが作成された。
Webスクレイピング技術は、このプログラム問題のデータセットを体系的に収集するために用いられた。
論文 参考訳(メタデータ) (2024-09-30T11:04:56Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - Using GPT-4 to Augment Unbalanced Data for Automatic Scoring [0.5586073503694489]
生成型大規模言語モデルである GPT-4 を利用した新しいテキストデータ拡張フレームワークを提案する。
我々は GPT-4 で応答を生成するプロンプトを作成した。
拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。
論文 参考訳(メタデータ) (2023-10-25T01:07:50Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts [13.486599520658919]
GPT-4は視覚的に記述可能なテキストを生成するために使用できる。
特殊な微細なデータセットに対して,0ショット転送精度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-07-21T15:49:59Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。
命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-06T17:58:09Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。