論文の概要: ChatAug: Leveraging ChatGPT for Text Data Augmentation
- arxiv url: http://arxiv.org/abs/2302.13007v2
- Date: Tue, 28 Feb 2023 01:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 12:38:02.386399
- Title: ChatAug: Leveraging ChatGPT for Text Data Augmentation
- Title(参考訳): ChatAug: テキストデータ拡張にChatGPTを活用する
- Authors: Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Zihao Wu,
Lin Zhao, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Quanzheng
Li, Dinggang Shen, Tianming Liu, and Xiang Li
- Abstract要約: 本稿では,ChatGPT(ChatAug)に基づくテキストデータ拡張手法を提案する。
ChatGPTは、非並列な言語的豊かさを持つデータに基づいて訓練され、大規模な人間のフィードバックによる強化トレーニングプロセスを採用している。
我々のテキストデータ拡張アプローチであるChatAugは、トレーニングサンプルの各文を、概念的に類似しているが意味的に異なる複数のサンプルに書き換える。
- 参考スコア(独自算出の注目度): 55.999876521167586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text data augmentation is an effective strategy for overcoming the challenge
of limited sample sizes in many natural language processing (NLP) tasks. This
challenge is especially prominent in the few-shot learning scenario, where the
data in the target domain is generally much scarcer and of lowered quality. A
natural and widely-used strategy to mitigate such challenges is to perform data
augmentation on the training data to better capture the data invariance and
increase the sample size. However, current text data augmentation methods
either can not ensure the correct labeling of the generated data (lacking
faithfulness) or can not ensure sufficient diversity in the generated data
(lacking completeness), or both. Inspired by the recent success of large
language models, especially the development of ChatGPT, which demonstrated
improved language comprehension abilities, in this work, we propose a text data
augmentation approach based on ChatGPT (named ChatAug). ChatGPT is trained on
data with unparalleled linguistic richness and employs a reinforcement training
process with large-scale human feedback, which endows the model with affinity
to the naturalness of human language. Our text data augmentation approach
ChatAug rephrases each sentence in the training samples into multiple
conceptually similar but semantically different samples. The augmented samples
can then be used in downstream model training. Experiment results on few-shot
learning text classification tasks show the superior performance of the
proposed ChatAug approach over state-of-the-art text data augmentation methods
in terms of testing accuracy and distribution of the augmented samples.
- Abstract(参考訳): テキストデータ拡張は、多くの自然言語処理(nlp)タスクにおける限られたサンプルサイズの課題を克服するための効果的な戦略である。
この課題は、ターゲット領域のデータが一般的に不足し、品質が低下する、少数の学習シナリオにおいて特に顕著である。
このような課題を緩和するための自然で広く利用されている戦略は、トレーニングデータに対するデータ拡張を実行し、データの不変性をよりよく捉え、サンプルサイズを増加させることである。
しかし、現在のテキストデータ拡張法は、生成されたデータの正しいラベル付けを保証できないか、または、生成されたデータの十分な多様性を保証できないか、または両方である。
本研究では,近年の大規模言語モデル,特にchatgptの開発に触発されて言語理解能力の向上を実証し,chatgpt(chataug)に基づくテキストデータ拡張手法を提案する。
ChatGPTは、非並列な言語的豊かさを持つデータに基づいて訓練され、大規模な人間のフィードバックによる強化トレーニングプロセスを採用し、人間の言語に親和性を持つモデルを提供する。
テキストデータ拡張アプローチchataugは、トレーニングサンプルの各文を、概念的に類似するが意味的に異なる複数のサンプルに分割する。
拡張されたサンプルは、下流モデルのトレーニングで使用できる。
少数の学習テキスト分類タスクにおける実験結果から,提案手法の精度と拡張サンプルの分布の観点から,最先端テキストデータ拡張法よりも優れた性能を示す。
関連論文リスト
- Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive
Prompt-Based Few-Shot Fine-Tuning [7.543506531838883]
本稿では,言語モデルの微調整手法であるLM-CPPFを提案する。
複数のテキスト分類ベンチマーク実験により, この拡張法が他の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-29T15:59:51Z) - Adversarial Word Dilution as Text Data Augmentation in Low-Resource
Regime [35.95241861664597]
本稿では,テキストデータ拡張として強烈な正の例を生成できる逆単語解法(AWD)を提案する。
テキストデータの増大という考え方は、未知語埋め込みと重み付けして強正語の埋め込みを減らすことである。
3つのベンチマークデータセットに関する実証研究により、AWDはより効果的なデータ拡張を生成でき、最先端のテキストデータ拡張手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T08:46:11Z) - GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation [9.501648136713694]
GPT-3のような大規模言語モデルは優れた数ショット学習者であり、自然なテキストプロンプトで制御できる。
本稿では,大規模言語モデルを用いて現実的なテキストサンプルを生成する新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T11:39:33Z) - Constructing Contrastive samples via Summarization for Text
Classification with limited annotations [46.53641181501143]
テキスト要約を用いた言語タスクのコントラストサンプル構築のための新しい手法を提案する。
我々はこれらのサンプルを教師付きコントラスト学習に使用し、アノテーションを限定したより良いテキスト表現を得る。
実世界のテキスト分類データセット(Amazon-5、Yelp-5、AG News)の実験では、提案したコントラスト学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2021-04-11T20:13:24Z) - Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-26T13:16:07Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。