Fugu-MT 論文翻訳(概要): Fabricator: An Open Source Toolkit for Generating Labeled Training Data with Teacher LLMs

論文の概要: Fabricator: An Open Source Toolkit for Generating Labeled Training Data with Teacher LLMs

arxiv url: http://arxiv.org/abs/2309.09582v2
Date: Fri, 2 Feb 2024 22:53:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 05:05:36.509926
Title: Fabricator: An Open Source Toolkit for Generating Labeled Training Data with Teacher LLMs
Title（参考訳）: Fabricator: 教師 LLM を用いたラベル付きトレーニングデータ生成用オープンソースツールキット
Authors: Jonas Golde, Patrick Haller, Felix Hamborg, Julian Risch, Alan Akbik
Abstract要約: 下流のNLPモデルのトレーニングに使用できるラベル付きデータを生成する方法を示す。 NLP生成のためのオープンソースのPythonツールキットであるFabricatorを紹介する。
参考スコア（独自算出の注目度）: 6.847114270274019
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most NLP tasks are modeled as supervised learning and thus require labeled training data to train effective models. However, manually producing such data at sufficient quality and quantity is known to be costly and time-intensive. Current research addresses this bottleneck by exploring a novel paradigm called zero-shot learning via dataset generation. Here, a powerful LLM is prompted with a task description to generate labeled data that can be used to train a downstream NLP model. For instance, an LLM might be prompted to "generate 500 movie reviews with positive overall sentiment, and another 500 with negative sentiment." The generated data could then be used to train a binary sentiment classifier, effectively leveraging an LLM as a teacher to a smaller student model. With this demo, we introduce Fabricator, an open-source Python toolkit for dataset generation. Fabricator implements common dataset generation workflows, supports a wide range of downstream NLP tasks (such as text classification, question answering, and entity recognition), and is integrated with well-known libraries to facilitate quick experimentation. With Fabricator, we aim to support researchers in conducting reproducible dataset generation experiments using LLMs and help practitioners apply this approach to train models for downstream tasks.
Abstract（参考訳）: ほとんどのNLPタスクは教師付き学習としてモデル化されており、効果的モデルのトレーニングにはラベル付きトレーニングデータが必要である。しかしながら、このようなデータを十分な品質と量で手作業で生成することはコストと時間を要することが知られている。現在の研究は、データセット生成によるゼロショット学習と呼ばれる新しいパラダイムを探求することで、このボトルネックに対処している。ここでは、下流のNLPモデルをトレーニングするために使用できるラベル付きデータを生成するために、強力なLCMにタスク記述を付与する。例えば、llmは「肯定的な総合感情を持つ500本の映画レビューと否定的な感情を持つ500本の映画レビューを生成」するよう促されるかもしれない。生成されたデータはバイナリ感情分類器のトレーニングに使用することができ、LLMを教師として有効活用してより小さな学生モデルを構築することができる。このデモでは、データセット生成のためのオープンソースのpythonツールキットであるfabricatorを紹介します。 Fabricatorは、共通のデータセット生成ワークフローを実装し、幅広い下流のNLPタスク(テキスト分類、質問応答、エンティティ認識など)をサポートし、よく知られたライブラリと統合されて、迅速な実験を容易にする。 fabricatorでは,llmを用いた再現可能なデータセット生成実験を支援するとともに,このアプローチを下流タスクのトレーニングモデルに適用する支援を行う。

関連論文リスト

BLAZER: Bootstrapping LLM-based Manipulation Agents with Zero-Shot Data Generation [59.70634559248202]
BLAZERは、自動生成されたトレーニングデータから操作ポリシーを学ぶフレームワークである。シミュレーション環境と実環境の両方において、BLAZERはゼロショット操作を大幅に改善することを示す。私たちのコードとデータはプロジェクトのページで公開されます。
論文参考訳（メタデータ） (2025-10-09T17:59:58Z)
TAGAL: Tabular Data Generation using Agentic LLM Methods [1.3037647287689436]
データ生成は、機械学習タスクのパフォーマンスを改善するための一般的なアプローチである。本稿では,エージェントワークフローを用いて合成表データを生成可能なメソッドの集合であるTAGALを提案する。 TAGALは、LLM(Large Language Models)のトレーニングを必要とする最先端のアプローチと同等に動作し、一般に他のトレーニング不要のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-09-04T12:25:14Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。 RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。 ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文参考訳（メタデータ） (2024-06-28T01:44:57Z)
Zero-shot LLM-guided Counterfactual Generation: A Case Study on NLP Model Evaluation [15.254775341371364]
ゼロショット対実生成に大規模言語モデルを活用する可能性について検討する。我々は,この生成を容易にするための構造化パイプラインを提案し,近年のLLMにおける命令追従とテキスト理解の能力を効果的に活用できるという仮説を立てた。
論文参考訳（メタデータ） (2024-05-08T03:57:45Z)
DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。 DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文参考訳（メタデータ） (2024-02-16T00:10:26Z)
LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。 LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文参考訳（メタデータ） (2023-10-30T14:54:15Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。