論文の概要: Fabricator: An Open Source Toolkit for Generating Labeled Training Data
with Teacher LLMs
- arxiv url: http://arxiv.org/abs/2309.09582v2
- Date: Fri, 2 Feb 2024 22:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 05:05:36.509926
- Title: Fabricator: An Open Source Toolkit for Generating Labeled Training Data
with Teacher LLMs
- Title(参考訳): Fabricator: 教師 LLM を用いたラベル付きトレーニングデータ生成用オープンソースツールキット
- Authors: Jonas Golde, Patrick Haller, Felix Hamborg, Julian Risch, Alan Akbik
- Abstract要約: 下流のNLPモデルのトレーニングに使用できるラベル付きデータを生成する方法を示す。
NLP生成のためのオープンソースのPythonツールキットであるFabricatorを紹介する。
- 参考スコア(独自算出の注目度): 6.847114270274019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most NLP tasks are modeled as supervised learning and thus require labeled
training data to train effective models. However, manually producing such data
at sufficient quality and quantity is known to be costly and time-intensive.
Current research addresses this bottleneck by exploring a novel paradigm called
zero-shot learning via dataset generation. Here, a powerful LLM is prompted
with a task description to generate labeled data that can be used to train a
downstream NLP model. For instance, an LLM might be prompted to "generate 500
movie reviews with positive overall sentiment, and another 500 with negative
sentiment." The generated data could then be used to train a binary sentiment
classifier, effectively leveraging an LLM as a teacher to a smaller student
model. With this demo, we introduce Fabricator, an open-source Python toolkit
for dataset generation. Fabricator implements common dataset generation
workflows, supports a wide range of downstream NLP tasks (such as text
classification, question answering, and entity recognition), and is integrated
with well-known libraries to facilitate quick experimentation. With Fabricator,
we aim to support researchers in conducting reproducible dataset generation
experiments using LLMs and help practitioners apply this approach to train
models for downstream tasks.
- Abstract(参考訳): ほとんどのNLPタスクは教師付き学習としてモデル化されており、効果的モデルのトレーニングにはラベル付きトレーニングデータが必要である。
しかしながら、このようなデータを十分な品質と量で手作業で生成することはコストと時間を要することが知られている。
現在の研究は、データセット生成によるゼロショット学習と呼ばれる新しいパラダイムを探求することで、このボトルネックに対処している。
ここでは、下流のNLPモデルをトレーニングするために使用できるラベル付きデータを生成するために、強力なLCMにタスク記述を付与する。
例えば、llmは「肯定的な総合感情を持つ500本の映画レビューと否定的な感情を持つ500本の映画レビューを生成」するよう促されるかもしれない。
生成されたデータはバイナリ感情分類器のトレーニングに使用することができ、LLMを教師として有効活用してより小さな学生モデルを構築することができる。
このデモでは、データセット生成のためのオープンソースのpythonツールキットであるfabricatorを紹介します。
Fabricatorは、共通のデータセット生成ワークフローを実装し、幅広い下流のNLPタスク(テキスト分類、質問応答、エンティティ認識など)をサポートし、よく知られたライブラリと統合されて、迅速な実験を容易にする。
fabricatorでは,llmを用いた再現可能なデータセット生成実験を支援するとともに,このアプローチを下流タスクのトレーニングモデルに適用する支援を行う。
関連論文リスト
- Zero-shot LLM-guided Counterfactual Generation for Text [15.254775341371364]
本稿では,大規模言語モデル (LLM) を汎用対実例生成器として利用する構造的手法を提案する。
ブラックボックスNLPモデルの評価と説明におけるゼロショット逆ファクトジェネレータとしてのLCMの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-08T03:57:45Z) - Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。
我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。
LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文 参考訳(メタデータ) (2024-03-27T22:05:10Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM
Workflows [81.38065762300718]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。