論文の概要: Fabricator: An Open Source Toolkit for Generating Labeled Training Data
with Teacher LLMs
- arxiv url: http://arxiv.org/abs/2309.09582v1
- Date: Mon, 18 Sep 2023 08:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:21:12.386809
- Title: Fabricator: An Open Source Toolkit for Generating Labeled Training Data
with Teacher LLMs
- Title(参考訳): Fabricator: 教師 LLM を用いたラベル付きトレーニングデータ生成用オープンソースツールキット
- Authors: Jonas Golde, Patrick Haller, Felix Hamborg, Julian Risch, Alan Akbik
- Abstract要約: 下流のNLPモデルのトレーニングに使用できるラベル付きデータを生成する方法を示す。
NLP生成のためのオープンソースのPythonツールキットであるFabricatorを紹介する。
- 参考スコア(独自算出の注目度): 6.847114270274019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most NLP tasks are modeled as supervised learning and thus require labeled
training data to train effective models. However, manually producing such data
at sufficient quality and quantity is known to be costly and time-intensive.
Current research addresses this bottleneck by exploring a novel paradigm called
zero-shot learning via dataset generation. Here, a powerful LLM is prompted
with a task description to generate labeled data that can be used to train a
downstream NLP model. For instance, an LLM might be prompted to "generate 500
movie reviews with positive overall sentiment, and another 500 with negative
sentiment." The generated data could then be used to train a binary sentiment
classifier, effectively leveraging an LLM as a teacher to a smaller student
model. With this demo, we introduce Fabricator, an open-source Python toolkit
for dataset generation. Fabricator implements common dataset generation
workflows, supports a wide range of downstream NLP tasks (such as text
classification, question answering, and entity recognition), and is integrated
with well-known libraries to facilitate quick experimentation. With Fabricator,
we aim to support researchers in conducting reproducible dataset generation
experiments using LLMs and help practitioners apply this approach to train
models for downstream tasks.
- Abstract(参考訳): ほとんどのNLPタスクは教師付き学習としてモデル化されており、効果的モデルのトレーニングにはラベル付きトレーニングデータが必要である。
しかしながら、このようなデータを十分な品質と量で手作業で生成することはコストと時間を要することが知られている。
現在の研究は、データセット生成によるゼロショット学習と呼ばれる新しいパラダイムを探求することで、このボトルネックに対処している。
ここでは、下流のNLPモデルをトレーニングするために使用できるラベル付きデータを生成するために、強力なLCMにタスク記述を付与する。
例えば、llmは「肯定的な総合感情を持つ500本の映画レビューと否定的な感情を持つ500本の映画レビューを生成」するよう促されるかもしれない。
生成されたデータはバイナリ感情分類器のトレーニングに使用することができ、LLMを教師として有効活用してより小さな学生モデルを構築することができる。
このデモでは、データセット生成のためのオープンソースのpythonツールキットであるfabricatorを紹介します。
Fabricatorは、共通のデータセット生成ワークフローを実装し、幅広い下流のNLPタスク(テキスト分類、質問応答、エンティティ認識など)をサポートし、よく知られたライブラリと統合されて、迅速な実験を容易にする。
fabricatorでは,llmを用いた再現可能なデータセット生成実験を支援するとともに,このアプローチを下流タスクのトレーニングモデルに適用する支援を行う。
関連論文リスト
- MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - Data Race Detection Using Large Language Models [1.0013600887991827]
大規模言語モデル(LLM)は、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略である。
本稿では,工学的手法と微調整的手法を併用した,LLMに基づく新しいデータ競合検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T00:08:43Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - On Learning to Summarize with Large Language Models as References [113.41909412365392]
本研究では,大規模言語モデル(LLM)をゴールドスタンダード・オラクルの参照とみなす,テキスト要約モデルの新たな学習パラダイムについて検討する。
要約品質評価器としてLLMを用いたコントラスト学習に基づく新しい学習手法を提案する。
CNN/DailyMailデータセットを用いた実験により,提案手法によって訓練されたより小さな要約モデルにより,基準LLMと同等以上の性能が得られることを示した。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - PyRelationAL: A Library for Active Learning Research and Development [0.11545092788508224]
PyRelationALは、アクティブラーニング(AL)研究のためのオープンソースライブラリである。
既存の文献に基づいたベンチマークデータセットとALタスク設定へのアクセスを提供する。
我々は、ベンチマークデータセットのPyRelationALコレクションの実験を行い、ALが提供できる相当な経済状況を示す。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z) - ZeroGen: Efficient Zero-shot Learning via Dataset Generation [28.454620513642034]
柔軟で効率的なゼロショート学習手法であるZeroGenについて検討する。
ゼロショットタスクが与えられた場合、まず、教師なしの方法で PLM を用いて、スクラッチからデータセットを生成する。
テキスト分類、質問応答、自然言語推論といった異なるNLPタスクの実験と分析は、ZeroGenの有効性を示している。
論文 参考訳(メタデータ) (2022-02-16T08:18:02Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。