論文の概要: PromptMix: A Class Boundary Augmentation Method for Large Language Model
Distillation
- arxiv url: http://arxiv.org/abs/2310.14192v1
- Date: Sun, 22 Oct 2023 05:43:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:10:57.801771
- Title: PromptMix: A Class Boundary Augmentation Method for Large Language Model
Distillation
- Title(参考訳): PromptMix:大規模言語モデル蒸留のためのクラス境界拡張法
- Authors: Gaurav Sahu, Olga Vechtomova, Dzmitry Bahdanau, Issam H. Laradji
- Abstract要約: そこで本研究では,LLMの命令に従う能力を利用して,より有用な拡張データを生成する手法を提案する。
具体的PromptMix法は,1) クラス境界付近で挑戦的なテキスト拡張を生成するが,境界例の生成はデータセットにおける偽陽性のリスクを増加させる。
Banking77, TREC6, Subjectivity (SUBJ) と Twitter Complaints の4つのテキスト分類データセットに対して, 提案手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 19.351192775314612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation is a widely used technique to address the problem of text
classification when there is a limited amount of training data. Recent work
often tackles this problem using large language models (LLMs) like GPT3 that
can generate new examples given already available ones. In this work, we
propose a method to generate more helpful augmented data by utilizing the LLM's
abilities to follow instructions and perform few-shot classifications. Our
specific PromptMix method consists of two steps: 1) generate challenging text
augmentations near class boundaries; however, generating borderline examples
increases the risk of false positives in the dataset, so we 2) relabel the text
augmentations using a prompting-based LLM classifier to enhance the correctness
of labels in the generated data. We evaluate the proposed method in challenging
2-shot and zero-shot settings on four text classification datasets: Banking77,
TREC6, Subjectivity (SUBJ), and Twitter Complaints. Our experiments show that
generating and, crucially, relabeling borderline examples facilitates the
transfer of knowledge of a massive LLM like GPT3.5-turbo into smaller and
cheaper classifiers like DistilBERT$_{base}$ and BERT$_{base}$. Furthermore,
2-shot PromptMix outperforms multiple 5-shot data augmentation methods on the
four datasets. Our code is available at
https://github.com/ServiceNow/PromptMix-EMNLP-2023.
- Abstract(参考訳): データ拡張は、限られたトレーニングデータが存在する場合に、テキスト分類の問題に対処するために広く用いられるテクニックである。
最近の研究は、しばしばGPT3のような大きな言語モデル(LLM)を使ってこの問題に取り組む。
そこで本研究では,llmの命令を追従し,少数ショットの分類を行うことで,より有用な拡張データを生成する手法を提案する。
PromptMix法は2つのステップから構成される。
1)クラス境界付近で難易度の高いテキスト拡張を生成するが,境界例の生成はデータセット内の偽陽性のリスクを増加させる。
2) 生成したデータのラベルの正しさを高めるために, プロンプトベースのLCM分類器を用いてテキスト拡張を行う。
Banking77, TREC6, Subjectivity (SUBJ), Twitter Complaints の4つのテキスト分類データセットに対して, 2ショット・ゼロショット設定に挑戦する手法の評価を行った。
実験により, GPT3.5-turbo のような大規模 LLM の知識を DistilBERT$_{base}$ や BERT$_{base}$ などより小さく,より安価な分類器に伝達する上で, 境界線例の生成と再現が重要であることが示された。
さらに、2-shot PromptMixは、4つのデータセットで複数の5-shotデータ拡張メソッドより優れています。
私たちのコードはhttps://github.com/ServiceNow/PromptMix-EMNLP-2023で利用可能です。
関連論文リスト
- An Automatic Prompt Generation System for Tabular Data Tasks [3.117741687220381]
大規模言語モデル(LLM)は、慎重に構築されたプロンプトを通じて、いくつかのタスクでその能力を実証している。
本稿では,複数のLDMに適した革新的オートプロンプト生成システムを提案する。
論文 参考訳(メタデータ) (2024-05-09T08:32:55Z) - Leveraging Weakly Annotated Data for Hate Speech Detection in Code-Mixed
Hinglish: A Feasibility-Driven Transfer Learning Approach with Large Language
Models [0.0]
混合コード低リソース言語におけるヘイトスピーチ検出は、大規模言語モデルの使用が有益であることが証明された活発な問題領域である。
そこで本研究では,100件のYouTubeコメントのデータセットを作成した。
すべてのアプローチにおいて、双方向自動回帰変換器(BART)を用いたゼロショット分類と、生成事前学習変換器3(ChatGPT-3)を用いた少数ショットプロンプトが最適である。
論文 参考訳(メタデータ) (2024-03-04T15:27:49Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。
私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文 参考訳(メタデータ) (2022-09-28T02:11:34Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - MixText: Linguistically-Informed Interpolation of Hidden Space for
Semi-Supervised Text Classification [68.15015032551214]
MixTextはテキスト分類のための半教師付き学習手法である。
TMixは、隠れた空間でテキストを補間することで、大量の拡張トレーニングサンプルを生成する。
我々は、ラベルなしデータの低エントロピーラベルを推測するために、最近のデータ拡張の進歩を活用している。
論文 参考訳(メタデータ) (2020-04-25T21:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。