論文の概要: Jellyfish: A Large Language Model for Data Preprocessing
- arxiv url: http://arxiv.org/abs/2312.01678v2
- Date: Tue, 5 Dec 2023 18:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 12:37:59.876840
- Title: Jellyfish: A Large Language Model for Data Preprocessing
- Title(参考訳): Jellyfish: データ前処理のための大規模言語モデル
- Authors: Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada
- Abstract要約: Jellyfish(ジェリーフィッシュ)は、Llama 2 13Bモデルで開発されたDPの普遍的なタスク解決ツールである。
いくつかの典型的なDPタスクのデータセットで命令調整される。
自然言語を理解する能力は、DPタスクの指示を手作業で作成することができる。
- 参考スコア(独自算出の注目度): 10.914067455923847
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present Jellyfish, an open-source LLM as a universal task
solver for DP. Built on the Llama 2 13B model, Jellyfish is instruction-tuned
with the datasets of several typical DP tasks including error detection, data
imputation, schema matching, and entity matching, and delivers generalizability
to other tasks. Remarkably, Jellyfish can operate on a local, single, and
low-priced GPU with its 13 billion parameters, ensuring data security and
enabling further tuning. Its proficiency in understanding natural language
allows users to manually craft instructions for DP tasks. Unlike many existing
methods that heavily rely on prior knowledge, Jellyfish acquires domain
knowledge during its tuning process and integrates optional knowledge injection
during inference. A distinctive feature of Jellyfish is its interpreter, which
elucidates its output decisions. To construct Jellyfish, we develop a series of
pre-tuning and DP-tuning techniques. Jellyfish is equipped with an instance
serializer, which automatically translates raw data into model prompts, and a
knowledge injector, which optionally introduces task- and dataset-specific
knowledge to enhance DP performance. Our evaluation of Jellyfish, using a range
of real datasets, shows its competitiveness compared to state-of-the-art
methods and its strong generalizability to unseen tasks. Jellyfish's
performance rivals that of GPT series models, and its interpreter offers
enhanced reasoning capabilities compared to GPT-3.5. Furthermore, our
evaluation highlights the effectiveness of the techniques employed in
constructing Jellyfish. Our model is available at Hugging Face:
https://huggingface.co/NECOUDBFM/Jellyfish .
- Abstract(参考訳): 本稿では,オープンソースのLCMであるJellyfishを,DPのためのユニバーサルタスクソルバとして紹介する。
Llama 2 13Bモデルに基づいて構築されたJellyfishは、エラー検出、データインプット、スキーママッチング、エンティティマッチングなど、典型的なDPタスクのデータセットをトレーニングし、他のタスクに一般化機能を提供する。
驚くべきことに、jellyfishは130億のパラメータで、ローカル、シングル、低価格のgpu上で動作でき、データのセキュリティを確保し、さらなるチューニングを可能にする。
自然言語を理解する能力は、DPタスクの指示を手作業で作成することができる。
事前知識に大きく依存する既存の多くのメソッドとは異なり、Jellyfishはチューニングプロセス中にドメイン知識を取得し、推論中に任意の知識注入を統合する。
Jellyfishの特徴的な特徴はインタプリタであり、出力決定を解明する。
Jellyfishを構築するために、我々は一連の事前調整およびDPチューニング技術を開発した。
jellyfishには、生データをモデルプロンプトに自動的に変換するインスタンスシリアライザと、タスクやデータセット固有の知識を任意に導入してdpパフォーマンスを向上させるナレッジインジェクタが備えられている。
実データを用いたjellyfishの評価は,最先端の手法と比較してその競合性,未認識のタスクに対する強い一般化性を示している。
JellyfishのパフォーマンスはGPTシリーズモデルに匹敵し、インタプリタはGPT-3.5に比べて推論能力が向上した。
また,jellyfishの構築における技術の有効性についても評価を行った。
私たちのモデルはHugging Faceで利用可能です。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Training Task Experts through Retrieval Based Distillation [55.46054242512261]
ReBase(Retrieval Based Distillation)は、まずリッチなオンラインソースからデータを抽出し、それをドメイン固有のデータに変換する手法である。
SQADは最大7.8%,MNLIは1.37%,BigBench-Hardは1.94%向上した。
論文 参考訳(メタデータ) (2024-07-07T18:27:59Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing [48.07915731998946]
我々はMagpieという名の大規模アライメントデータを生成する自己合成法を提案する。
我々はこの手法を用いてLlama-3-Instructを誘導し、対応する応答とともに400万の命令を生成する。
以上の結果から,Magpieを微調整したモデルでは,公式のLlama-3-8B-インストラクトと同等に動作することが示唆された。
論文 参考訳(メタデータ) (2024-06-12T17:52:30Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。