論文の概要: Jellyfish: A Large Language Model for Data Preprocessing
- arxiv url: http://arxiv.org/abs/2312.01678v4
- Date: Wed, 13 Mar 2024 13:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:58:29.101736
- Title: Jellyfish: A Large Language Model for Data Preprocessing
- Title(参考訳): Jellyfish: データ前処理のための大規模言語モデル
- Authors: Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada
- Abstract要約: 命令調整型ローカルLCMをユニバーサルDP問解器として検討する。
4つのDPタスクにまたがるデータセットの集合を選択する。
DP指導のためのデータセットであるJellyfishは,LLMのDP性能を効果的に向上することを示す。
- 参考スコア(独自算出の注目度): 10.914067455923847
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper explores the utilization of LLMs for data preprocessing (DP), a
crucial step in the data mining pipeline that transforms raw data into a clean
format conducive to easy processing. Whereas the use of LLMs has sparked
interest in devising universal solutions to DP, recent initiatives in this
domain typically rely on GPT APIs, raising inevitable data breach concerns.
Unlike these approaches, we consider instruction-tuning local LLMs (7 - 13B
models) as universal DP ask solver. We select a collection of datasets across
four representative DP tasks and construct instruction-tuning data using
serialization and knowledge injection techniques tailored to DP. As such, the
instruction-tuned LLMs empower users to manually craft instructions for DP.
Meanwhile, they can operate on a local, single, and low-priced GPU, ensuring
data security and enabling further tuning. Our experiments show that our
dataset constructed for DP instruction tuning, namely Jellyfish, effectively
enhances LLMs' DP performances and barely compromises their abilities in NLP
tasks. By tuning Mistral-7B and OpenOrca-Platypus2-13B with Jellyfish, the
models deliver competitiveness compared to state-of-the-art DP methods and
strong generalizability to unseen tasks. The models' performance rivals that of
GPT series models, and the interpretation offers enhanced reasoning
capabilities compared to GPT-3.5. The 7B and 13B Jellyfish models are available
at Hugging Face: https://huggingface.co/NECOUDBFM/Jellyfish-7B
https://huggingface.co/NECOUDBFM/Jellyfish-13B
- Abstract(参考訳): 本稿では,データマイニングパイプラインにおける重要なステップであるデータ前処理(DP)におけるLCMの利用について検討する。
LLMの使用はDPに対する普遍的なソリューション開発への関心を喚起しているが、この領域における最近の取り組みは一般的にGPT APIに依存しており、必然的なデータ漏洩の懸念を提起している。
これらの手法と異なり、命令調整ローカルLLM (7-13Bモデル) をユニバーサルDP問合せ問題として検討する。
本研究では,4つのDPタスクにまたがるデータセットの集合を選択し,DPに適した直列化と知識注入技術を用いて命令調整データを構築する。
そのため、命令調整されたLLMは、DPの命令を手作業で作成することを可能にする。
一方、ローカル、シングル、低価格のGPUで運用でき、データのセキュリティを確保し、さらなるチューニングを可能にする。
実験の結果, DP 指導のためのデータセットである Jellyfish は LLM のDP 性能を効果的に向上し, NLP タスクにおけるその能力をほとんど損なわないことがわかった。
Mistral-7B と OpenOrca-Platypus2-13B を Jellyfish にチューニングすることで、このモデルは最先端のDPメソッドと比較して競争力を提供し、目に見えないタスクに対して強力な一般化性を提供する。
モデルの性能はGPTシリーズモデルに匹敵し、解釈はGPT-3.5に比べて推論能力が向上した。
https://huggingface.co/NECOUDBFM/Jellyfish-7B https://huggingface.co/NECOUDBFM/Jellyfish-13B
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Training Task Experts through Retrieval Based Distillation [55.46054242512261]
ReBase(Retrieval Based Distillation)は、まずリッチなオンラインソースからデータを抽出し、それをドメイン固有のデータに変換する手法である。
SQADは最大7.8%,MNLIは1.37%,BigBench-Hardは1.94%向上した。
論文 参考訳(メタデータ) (2024-07-07T18:27:59Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing [48.07915731998946]
我々はMagpieという名の大規模アライメントデータを生成する自己合成法を提案する。
我々はこの手法を用いてLlama-3-Instructを誘導し、対応する応答とともに400万の命令を生成する。
以上の結果から,Magpieを微調整したモデルでは,公式のLlama-3-8B-インストラクトと同等に動作することが示唆された。
論文 参考訳(メタデータ) (2024-06-12T17:52:30Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。