論文の概要: SIEVE: General Purpose Data Filtering System Matching GPT-4o Accuracy at 1% the Cost
- arxiv url: http://arxiv.org/abs/2410.02755v2
- Date: Tue, 08 Oct 2024 18:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 11:49:33.887261
- Title: SIEVE: General Purpose Data Filtering System Matching GPT-4o Accuracy at 1% the Cost
- Title(参考訳): SIEVE: GPT-4oの精度を1%のコストでマッチングする汎用データフィルタリングシステム
- Authors: Jifan Zhang, Robert Nowak,
- Abstract要約: SIEVEは、GPT-4oの精度を少しのコストで一致させる軽量フィルタである。
我々は,5つの高度にカスタマイズされたフィルタタスクを用いて,OpenWebTextデータセット上でSIEVEを実験的に検証した。
本研究は,言語モデル学習のための大規模かつ高品質なデータセットのキュレーションにおいて,本手法の有効性と効率性を示すものである。
- 参考スコア(独自算出の注目度): 8.406910685074134
- License:
- Abstract: Creating specialized large language models requires vast amounts of clean, special purpose data for training and fine-tuning. With only a handful of existing large-scale, domain-specific datasets, creation of new datasets is required in most applications. This requires the development of new application-specific filtering of web-scale data. Filtering with a high-performance, general-purpose LLM such as GPT-4o can be highly effective, but this is extremely expensive at web-scale. This paper proposes SIEVE, a lightweight alternative that matches GPT-4o accuracy at a fraction of the cost. SIEVE can perform up to 500 filtering operations for the cost of one GPT-4o filtering call. The key to SIEVE is a seamless integration of GPT-4o and lightweight T5 models, using active learning to fine-tune T5 in the background with a small number of calls to GPT-4o. Once trained, it performs as well as GPT-4o at a tiny fraction of the cost. We experimentally validate SIEVE on the OpenWebText dataset, using five highly customized filter tasks targeting high quality and domain-specific content. Our results demonstrate the effectiveness and efficiency of our method in curating large, high-quality datasets for language model training at a substantially lower cost (1%) than existing techniques. To further validate SIEVE, experiments show that SIEVE and GPT-4o achieve similar accuracy, with human evaluators preferring SIEVE's filtering results to those of GPT-4o.
- Abstract(参考訳): 専門的な大規模言語モデルを作成するには、トレーニングと微調整のために大量のクリーンで特別なデータが必要である。
既存の大規模なドメイン固有のデータセットのごく一部だけで、ほとんどのアプリケーションで新しいデータセットを作成する必要がある。
これは、Webスケールデータの新しいアプリケーション固有のフィルタリングを開発する必要がある。
GPT-4o などの高性能汎用 LLM によるフィルタリングは非常に効果的であるが,Web スケールでは極めて高価である。
本稿では,GPT-4oの精度を若干のコストで一致させる軽量な代替手段であるSIEVEを提案する。
SIEVEは最大500個のフィルタリング処理を実行でき、1つのGPT-4oフィルタリングコールのコストがかかる。
SIEVEの鍵となるのは、GPT-4oと軽量T5モデルのシームレスな統合であり、アクティブラーニングを使用してバックグラウンドでT5を微調整し、少数のGPT-4oを呼び出す。
トレーニングが完了すると、GPT-4oと同様に、わずかなコストで動作します。
高品質でドメイン固有のコンテンツを対象とした5つの高度にカスタマイズされたフィルタタスクを用いて、OpenWebTextデータセット上でSIEVEを実験的に検証する。
本研究は,言語モデル学習のための大規模かつ高品質なデータセットを,既存の手法よりも大幅に低コスト(1%)でキュレートする手法の有効性と効率を実証するものである。
SIEVEをさらに検証するために、実験によりSIEVEとGPT-4oが同様の精度を達成できることが示され、人間の評価者はSIEVEのフィルタリング結果をGPT-4oより好んでいる。
関連論文リスト
- RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - Zero-Shot Spam Email Classification Using Pre-trained Large Language Models [0.0]
本稿では,ゼロショットプロンプトを用いたスパムメール分類における事前学習型大規模言語モデル(LLM)の適用について検討する。
オープンソース (Flan-T5) とプロプライエタリ LLM (ChatGPT, GPT-4) の両方の性能をよく知られた SpamAssassin データセット上で評価した。
論文 参考訳(メタデータ) (2024-05-24T20:55:49Z) - JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。
そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。
我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文 参考訳(メタデータ) (2024-05-23T09:43:19Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4 [14.248735997950446]
InstructionGPT-4は200のサンプルからなる小さなデータセット上で微調整される。
これらの指標に基づいて,低品質の視覚言語データを自動的に識別・フィルタリングする,効果的で訓練可能なデータセレクタを提案する。
この結果から,マルチモーダルな大規模言語モデルがより優れた出力を生成するためには,低品質な命令調律データが効率的であることが示唆された。
論文 参考訳(メタデータ) (2023-08-23T11:27:30Z) - Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts [13.486599520658919]
GPT-4は視覚的に記述可能なテキストを生成するために使用できる。
特殊な微細なデータセットに対して,0ショット転送精度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-07-21T15:49:59Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。
命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-06T17:58:09Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - SASL: Saliency-Adaptive Sparsity Learning for Neural Network
Acceleration [20.92912642901645]
そこで本稿では、さらなる最適化のために、SASL(Saliency-Adaptive Sparsity Learning)アプローチを提案する。
ResNet-50 の 49.7% の FLOP を 0.39% のトップ-1 と 0.05% のトップ-5 の精度で削減できる。
論文 参考訳(メタデータ) (2020-03-12T16:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。