論文の概要: Jellyfish: A Large Language Model for Data Preprocessing
- arxiv url: http://arxiv.org/abs/2312.01678v6
- Date: Mon, 28 Oct 2024 22:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:38:24.033585
- Title: Jellyfish: A Large Language Model for Data Preprocessing
- Title(参考訳): Jellyfish: データ前処理のための大規模言語モデル
- Authors: Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada,
- Abstract要約: 命令チューニング型ローカルLLM (7-13Bモデル) を,ローカル,シングル,低価格のGPUで動作するユニバーサルDPタスクソルバとして検討する。
Mistral-7B、Llama 3-8B、OpenOrca-Platypus2-13Bをチューニングすることで、われわれのモデル、すなわちJellyfish-7B/8B/13BはGPT-3.5/4モデルと比較して競争力を発揮する。
- 参考スコア(独自算出の注目度): 9.99065004972981
- License:
- Abstract: This paper explores the utilization of LLMs for data preprocessing (DP), a crucial step in the data mining pipeline that transforms raw data into a clean format conducive to easy processing. Whereas the use of LLMs has sparked interest in devising universal solutions to DP, recent initiatives in this domain typically rely on GPT APIs, raising inevitable data breach concerns. Unlike these approaches, we consider instruction-tuning local LLMs (7 -- 13B models) as universal DP task solvers that operate on a local, single, and low-priced GPU, ensuring data security and enabling further customization. We select a collection of datasets across four representative DP tasks and construct instruction tuning data using data configuration, knowledge injection, and reasoning data distillation techniques tailored to DP. By tuning Mistral-7B, Llama 3-8B, and OpenOrca-Platypus2-13B, our models, namely, Jellyfish-7B/8B/13B, deliver competitiveness compared to GPT-3.5/4 models and strong generalizability to unseen tasks while barely compromising the base models' abilities in NLP tasks. Meanwhile, Jellyfish offers enhanced reasoning capabilities compared to GPT-3.5. Our models are available at: https://huggingface.co/NECOUDBFM/Jellyfish . Our instruction dataset is available at: https://huggingface.co/datasets/NECOUDBFM/Jellyfish-Instruct .
- Abstract(参考訳): 本稿では,データマイニングパイプラインにおける重要なステップであるデータ前処理(DP)におけるLCMの利用について検討する。
LLMの使用はDPに対する普遍的なソリューション開発への関心を喚起しているが、この領域における最近の取り組みは一般的にGPT APIに依存しており、必然的なデータ漏洩の懸念を提起している。
これらのアプローチとは異なり、命令チューニングのローカルLSM(7-13Bモデル)は、ローカル、シングル、低価格のGPU上で動作し、データのセキュリティを確保し、さらなるカスタマイズを可能にするユニバーサルDPタスク解決器であると考えている。
4つの代表的なDPタスクにまたがるデータセットのコレクションを選択し、データ構成、知識注入、DPに適合した推論データ蒸留技術を用いて、インストラクションチューニングデータを構築する。
Mistral-7B, Llama 3-8B, OpenOrca-Platypus2-13Bをチューニングすることで、我々のモデルであるJellyfish-7B/8B/13Bは、GPT-3.5/4モデルと比較して競争力を提供し、NLPタスクにおけるベースモデルの能力をほとんど妥協することなく、目に見えないタスクに対して強力な一般化性を提供する。
一方、JellyfishはGPT-3.5に比べて推論能力が向上している。
私たちのモデルは、https://huggingface.co/NECOUDBFM/Jellyfishで利用可能です。
私たちの命令データセットは、https://huggingface.co/datasets/NECOUDBFM/Jellyfish-Instruct で利用可能です。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Training Task Experts through Retrieval Based Distillation [55.46054242512261]
ReBase(Retrieval Based Distillation)は、まずリッチなオンラインソースからデータを抽出し、それをドメイン固有のデータに変換する手法である。
SQADは最大7.8%,MNLIは1.37%,BigBench-Hardは1.94%向上した。
論文 参考訳(メタデータ) (2024-07-07T18:27:59Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing [48.07915731998946]
我々はMagpieという名の大規模アライメントデータを生成する自己合成法を提案する。
我々はこの手法を用いてLlama-3-Instructを誘導し、対応する応答とともに400万の命令を生成する。
以上の結果から,Magpieを微調整したモデルでは,公式のLlama-3-8B-インストラクトと同等に動作することが示唆された。
論文 参考訳(メタデータ) (2024-06-12T17:52:30Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。