論文の概要: Synthetic Data Generation in Low-Resource Settings via Fine-Tuning of
Large Language Models
- arxiv url: http://arxiv.org/abs/2310.01119v2
- Date: Mon, 8 Jan 2024 13:09:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:45:34.291708
- Title: Synthetic Data Generation in Low-Resource Settings via Fine-Tuning of
Large Language Models
- Title(参考訳): 大規模言語モデルの微調整による低リソース環境における合成データ生成
- Authors: Jean Kaddour, Qi Liu
- Abstract要約: 大規模な言語モデルは、比較的少ないラベル付き例で下流タスクを一般化することができる。
あるいは、ラベル付きサンプルを十分に微調整すれば、より小さなモデルで特定のタスクを解くことができる。
我々は、より小さなモデルの下流性能を改善するために、微調整教師LEMを用いた微調整訓練データの合成データ生成について検討した。
- 参考スコア(独自算出の注目度): 15.991777903345575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The in-context learning ability of large language models (LLMs) enables them
to generalize to novel downstream tasks with relatively few labeled examples.
However, they require enormous computational resources to be deployed.
Alternatively, smaller models can solve specific tasks if fine-tuned with
enough labeled examples. These examples, however, are expensive to obtain. In
pursuit of the best of both worlds, we study synthetic data generation of
fine-tuning training data via fine-tuned teacher LLMs to improve the downstream
performance of much smaller models. In four text classification and two text
generation tasks, we find that both data generation and annotation dramatically
improve the respective downstream model's performance, occasionally
necessitating only a minor fraction of the original training dataset.
- Abstract(参考訳): 大規模言語モデル(LLM)のコンテキスト内学習能力により、比較的少ないラベル付き例で、ダウンストリームタスクを一般化することができる。
しかし、それらは膨大な計算資源をデプロイする必要がある。
あるいは、ラベル付きの例で微調整すれば、より小さなモデルは特定のタスクを解決できる。
しかし、これらの例は入手に費用がかかる。
両世界のベストを追求するため,より小さなモデルの下流性能を改善するために,微調整教師llmによる微調整トレーニングデータの合成データ生成について検討した。
4つのテキスト分類と2つのテキスト生成タスクで、データ生成とアノテーションの両方がそれぞれの下流モデルのパフォーマンスを劇的に改善し、時には元のトレーニングデータセットのほんの一部しか必要としないことが分かった。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - A synthetic data approach for domain generalization of NLI models [13.840374911669167]
自然言語推論(NLI)はLLMにとって重要なベンチマークタスクである。
合成された高品質データセットは、下流アプリケーションでゼロショット使用にNLIモデルを適用することができることを示す。
我々は、このデータに基づいてトレーニングされたモデルが、完全に下流のテスト設定に最適な一般化があることを示します。
論文 参考訳(メタデータ) (2024-02-19T18:55:16Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Generating Datasets with Pretrained Language Models [12.919486518128734]
ラベル付きデータや微調整や事前学習目的の変更を必要とせずに,大規模言語モデルを用いて高品質な埋め込みを実現する方法を示す。
PLMの生成能力を利用して、ラベル付きテキストペアの全データセットをゼロから生成し、より小さなモデルの定期的な微調整に使用できます。
論文 参考訳(メタデータ) (2021-04-15T15:51:41Z) - Generation-Distillation for Efficient Natural Language Understanding in
Low-Data Settings [5.929956715430167]
大規模言語モデル(LM)を用いた伝達学習は、幅広い自然言語理解タスクにおいて劇的な性能向上をもたらした。
これらの大きなLMのサイズとメモリフットプリントは、多くのシナリオでのデプロイを困難にしている。
最近の研究では、知識蒸留が潜在的な解決策として指摘されており、与えられたタスクのトレーニングデータが豊富であれば、大きな(教師)LMを最小限の性能を失う小さなタスク固有(学生)ネットワークに蒸留することが可能である。
論文 参考訳(メタデータ) (2020-01-25T08:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。