論文の概要: Jellyfish: A Large Language Model for Data Preprocessing
- arxiv url: http://arxiv.org/abs/2312.01678v2
- Date: Tue, 5 Dec 2023 18:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 12:37:59.876840
- Title: Jellyfish: A Large Language Model for Data Preprocessing
- Title(参考訳): Jellyfish: データ前処理のための大規模言語モデル
- Authors: Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada
- Abstract要約: Jellyfish(ジェリーフィッシュ)は、Llama 2 13Bモデルで開発されたDPの普遍的なタスク解決ツールである。
いくつかの典型的なDPタスクのデータセットで命令調整される。
自然言語を理解する能力は、DPタスクの指示を手作業で作成することができる。
- 参考スコア(独自算出の注目度): 10.914067455923847
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present Jellyfish, an open-source LLM as a universal task
solver for DP. Built on the Llama 2 13B model, Jellyfish is instruction-tuned
with the datasets of several typical DP tasks including error detection, data
imputation, schema matching, and entity matching, and delivers generalizability
to other tasks. Remarkably, Jellyfish can operate on a local, single, and
low-priced GPU with its 13 billion parameters, ensuring data security and
enabling further tuning. Its proficiency in understanding natural language
allows users to manually craft instructions for DP tasks. Unlike many existing
methods that heavily rely on prior knowledge, Jellyfish acquires domain
knowledge during its tuning process and integrates optional knowledge injection
during inference. A distinctive feature of Jellyfish is its interpreter, which
elucidates its output decisions. To construct Jellyfish, we develop a series of
pre-tuning and DP-tuning techniques. Jellyfish is equipped with an instance
serializer, which automatically translates raw data into model prompts, and a
knowledge injector, which optionally introduces task- and dataset-specific
knowledge to enhance DP performance. Our evaluation of Jellyfish, using a range
of real datasets, shows its competitiveness compared to state-of-the-art
methods and its strong generalizability to unseen tasks. Jellyfish's
performance rivals that of GPT series models, and its interpreter offers
enhanced reasoning capabilities compared to GPT-3.5. Furthermore, our
evaluation highlights the effectiveness of the techniques employed in
constructing Jellyfish. Our model is available at Hugging Face:
https://huggingface.co/NECOUDBFM/Jellyfish .
- Abstract(参考訳): 本稿では,オープンソースのLCMであるJellyfishを,DPのためのユニバーサルタスクソルバとして紹介する。
Llama 2 13Bモデルに基づいて構築されたJellyfishは、エラー検出、データインプット、スキーママッチング、エンティティマッチングなど、典型的なDPタスクのデータセットをトレーニングし、他のタスクに一般化機能を提供する。
驚くべきことに、jellyfishは130億のパラメータで、ローカル、シングル、低価格のgpu上で動作でき、データのセキュリティを確保し、さらなるチューニングを可能にする。
自然言語を理解する能力は、DPタスクの指示を手作業で作成することができる。
事前知識に大きく依存する既存の多くのメソッドとは異なり、Jellyfishはチューニングプロセス中にドメイン知識を取得し、推論中に任意の知識注入を統合する。
Jellyfishの特徴的な特徴はインタプリタであり、出力決定を解明する。
Jellyfishを構築するために、我々は一連の事前調整およびDPチューニング技術を開発した。
jellyfishには、生データをモデルプロンプトに自動的に変換するインスタンスシリアライザと、タスクやデータセット固有の知識を任意に導入してdpパフォーマンスを向上させるナレッジインジェクタが備えられている。
実データを用いたjellyfishの評価は,最先端の手法と比較してその競合性,未認識のタスクに対する強い一般化性を示している。
JellyfishのパフォーマンスはGPTシリーズモデルに匹敵し、インタプリタはGPT-3.5に比べて推論能力が向上した。
また,jellyfishの構築における技術の有効性についても評価を行った。
私たちのモデルはHugging Faceで利用可能です。
関連論文リスト
- Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [57.64059482750924]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning [0.0]
プリトレーニング済みLLMのDP微調整は、タスク固有のデータセットのプライバシ保護に広く用いられている。
DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。
論文 参考訳(メタデータ) (2024-02-12T17:24:15Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Differentially Private Diffusion Models [46.46256537222917]
我々は近年の拡散モデル(DM)の成功の上に構築され、微分プライベート拡散モデル(DPDM)を導入している。
DMのトレーニングに適したDP-SGDの強力な修正であるノイズ多重性を提案する。
我々は,新しいDPDMを画像生成ベンチマークで検証し,すべての実験で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-18T15:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。