Fugu-MT 論文翻訳(概要): Jellyfish: A Large Language Model for Data Preprocessing

論文の概要: Jellyfish: A Large Language Model for Data Preprocessing

arxiv url: http://arxiv.org/abs/2312.01678v4
Date: Wed, 13 Mar 2024 13:02:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 17:58:29.101736
Title: Jellyfish: A Large Language Model for Data Preprocessing
Title（参考訳）: Jellyfish: データ前処理のための大規模言語モデル
Authors: Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada
Abstract要約: 命令調整型ローカルLCMをユニバーサルDP問解器として検討する。 4つのDPタスクにまたがるデータセットの集合を選択する。 DP指導のためのデータセットであるJellyfishは,LLMのDP性能を効果的に向上することを示す。
参考スコア（独自算出の注目度）: 10.914067455923847
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper explores the utilization of LLMs for data preprocessing (DP), a crucial step in the data mining pipeline that transforms raw data into a clean format conducive to easy processing. Whereas the use of LLMs has sparked interest in devising universal solutions to DP, recent initiatives in this domain typically rely on GPT APIs, raising inevitable data breach concerns. Unlike these approaches, we consider instruction-tuning local LLMs (7 - 13B models) as universal DP ask solver. We select a collection of datasets across four representative DP tasks and construct instruction-tuning data using serialization and knowledge injection techniques tailored to DP. As such, the instruction-tuned LLMs empower users to manually craft instructions for DP. Meanwhile, they can operate on a local, single, and low-priced GPU, ensuring data security and enabling further tuning. Our experiments show that our dataset constructed for DP instruction tuning, namely Jellyfish, effectively enhances LLMs' DP performances and barely compromises their abilities in NLP tasks. By tuning Mistral-7B and OpenOrca-Platypus2-13B with Jellyfish, the models deliver competitiveness compared to state-of-the-art DP methods and strong generalizability to unseen tasks. The models' performance rivals that of GPT series models, and the interpretation offers enhanced reasoning capabilities compared to GPT-3.5. The 7B and 13B Jellyfish models are available at Hugging Face: https://huggingface.co/NECOUDBFM/Jellyfish-7B https://huggingface.co/NECOUDBFM/Jellyfish-13B
Abstract（参考訳）: 本稿では,データマイニングパイプラインにおける重要なステップであるデータ前処理(DP)におけるLCMの利用について検討する。 LLMの使用はDPに対する普遍的なソリューション開発への関心を喚起しているが、この領域における最近の取り組みは一般的にGPT APIに依存しており、必然的なデータ漏洩の懸念を提起している。これらの手法と異なり、命令調整ローカルLLM (7-13Bモデル) をユニバーサルDP問合せ問題として検討する。本研究では,4つのDPタスクにまたがるデータセットの集合を選択し,DPに適した直列化と知識注入技術を用いて命令調整データを構築する。そのため、命令調整されたLLMは、DPの命令を手作業で作成することを可能にする。一方、ローカル、シングル、低価格のGPUで運用でき、データのセキュリティを確保し、さらなるチューニングを可能にする。実験の結果, DP 指導のためのデータセットである Jellyfish は LLM のDP 性能を効果的に向上し, NLP タスクにおけるその能力をほとんど損なわないことがわかった。 Mistral-7B と OpenOrca-Platypus2-13B を Jellyfish にチューニングすることで、このモデルは最先端のDPメソッドと比較して競争力を提供し、目に見えないタスクに対して強力な一般化性を提供する。モデルの性能はGPTシリーズモデルに匹敵し、解釈はGPT-3.5に比べて推論能力が向上した。 https://huggingface.co/NECOUDBFM/Jellyfish-7B https://huggingface.co/NECOUDBFM/Jellyfish-13B

関連論文リスト

InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文参考訳（メタデータ） (2025-08-07T15:34:06Z)
DONOD: Robust and Generalizable Instruction Fine-Tuning for LLMs via Model-Intrinsic Dataset Pruning [22.704995231753397]
大規模言語モデル(LLM)のアドホック命令の微調整は、ドメイン固有の適応に広く採用されている。本研究では,軽量なモデル固有データ解析手法であるDONODを提案する。完全なデータセットの70%をフィルタリングすることで、ターゲットドメインの精度を14.90%、クロスドメインの精度を5.67%向上させる。
論文参考訳（メタデータ） (2025-04-21T02:25:03Z)
The Best Instruction-Tuning Data are Those That Fit [17.401088816596054]
事前訓練された大言語モデル(LLM)から強機能を引き出すためには,SFT(Supervised Fine-tuning)データが必要である。 GRAPE*は,対象モデルの特異な特徴を考慮に入れた,新しいSFTフレームワークである。各命令に対して、様々なLSMからの応答を収集し、ターゲットモデルによって測定された最も高い確率の命令を選択する。
論文参考訳（メタデータ） (2025-02-06T16:31:21Z)
CoddLLM: Empowering Large Language Models for Data Analytics [38.23203246023766]
大規模言語モデル(LLM)は、データ分析に革命をもたらす可能性がある。我々は、Turbo後合成のための新しいデータレシピを公開した。我々はMistralNeMo-12Bに基づく新しい基礎モデルであるCoddLLMをポストトレーニングする。
論文参考訳（メタデータ） (2025-02-01T06:03:55Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Training Task Experts through Retrieval Based Distillation [55.46054242512261]
ReBase(Retrieval Based Distillation)は、まずリッチなオンラインソースからデータを抽出し、それをドメイン固有のデータに変換する手法である。 SQADは最大7.8%,MNLIは1.37%,BigBench-Hardは1.94%向上した。
論文参考訳（メタデータ） (2024-07-07T18:27:59Z)
DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文参考訳（メタデータ） (2024-06-17T17:42:57Z)
Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing [48.07915731998946]
我々はMagpieという名の大規模アライメントデータを生成する自己合成法を提案する。我々はこの手法を用いてLlama-3-Instructを誘導し、対応する応答とともに400万の命令を生成する。以上の結果から,Magpieを微調整したモデルでは,公式のLlama-3-8B-インストラクトと同等に動作することが示唆された。
論文参考訳（メタデータ） (2024-06-12T17:52:30Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
DavIR: Data Selection via Implicit Reward for Large Language Models [62.59514469369608]
DavIRは、学習後の大規模言語モデルのためのモデルベースのデータ選択手法である。 DavIRで選択したAlpacaデータセットの6%は、LLaMAモデルとGemmaモデルの両方を操り、フル52Kデータセットでトレーニングされたモデルと比較すると、優れたパフォーマンスが得られる。
論文参考訳（メタデータ） (2023-10-16T07:26:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。