Fugu-MT 論文翻訳(概要): AugGPT: Leveraging ChatGPT for Text Data Augmentation

論文の概要: AugGPT: Leveraging ChatGPT for Text Data Augmentation

arxiv url: http://arxiv.org/abs/2302.13007v3
Date: Mon, 20 Mar 2023 11:39:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-23 23:36:41.166581
Title: AugGPT: Leveraging ChatGPT for Text Data Augmentation
Title（参考訳）: AugGPT: テキストデータ拡張にChatGPTを活用する
Authors: Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu, and Xiang Li
Abstract要約: 本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。 AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
参考スコア（独自算出の注目度）: 59.76140039943385
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text data augmentation is an effective strategy for overcoming the challenge of limited sample sizes in many natural language processing (NLP) tasks. This challenge is especially prominent in the few-shot learning scenario, where the data in the target domain is generally much scarcer and of lowered quality. A natural and widely-used strategy to mitigate such challenges is to perform data augmentation to better capture the data invariance and increase the sample size. However, current text data augmentation methods either can't ensure the correct labeling of the generated data (lacking faithfulness) or can't ensure sufficient diversity in the generated data (lacking compactness), or both. Inspired by the recent success of large language models, especially the development of ChatGPT, which demonstrated improved language comprehension abilities, in this work, we propose a text data augmentation approach based on ChatGPT (named AugGPT). AugGPT rephrases each sentence in the training samples into multiple conceptually similar but semantically different samples. The augmented samples can then be used in downstream model training. Experiment results on few-shot learning text classification tasks show the superior performance of the proposed AugGPT approach over state-of-the-art text data augmentation methods in terms of testing accuracy and distribution of the augmented samples.
Abstract（参考訳）: テキストデータ拡張は、多くの自然言語処理(nlp)タスクにおける限られたサンプルサイズの課題を克服するための効果的な戦略である。この課題は、ターゲット領域のデータが一般的に不足し、品質が低下する、少数の学習シナリオにおいて特に顕著である。このような課題を緩和するための自然で広く利用されている戦略は、データの不変性をよりよく捉え、サンプルサイズを増やすためにデータ拡張を行うことである。しかし、現在のテキストデータ拡張手法では、生成されたデータの正しいラベル付けを保証できないか、または、生成されたデータの十分な多様性を保証できないか、またはその両方を保証できない。本稿では,最近の大規模言語モデル,特に言語理解能力の向上を実証したchatgptの開発に触発されて,chatgpt(auggpt)に基づくテキストデータ拡張手法を提案する。 AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。拡張されたサンプルは、下流モデルのトレーニングで使用できる。数ショットの学習テキスト分類タスクの実験結果から,提案したAugGPTアプローチの精度とサンプルの分布の検証において,最先端のテキストデータ拡張手法よりも優れた性能を示した。

関連論文リスト

Scaling Textual Gradients via Sampling-Based Momentum [59.94928977345951]
Textual Gradient Descent (TGD)フレームワークは、有望なデータ駆動アプローチとして登場した。トレーニングサンプルの数をスケールすることで結果が改善されるが、後にTGDのパフォーマンスが低下する。本稿では,テキスト・グラディエント・ Descent with Momentum (TSGD-M) を提案する。
論文参考訳（メタデータ） (2025-05-31T05:35:45Z)
Diversity-Oriented Data Augmentation with Large Language Models [9.548912625579947]
我々はtextbfunderline Di-textbfunderline 指向データ textbfunderlineAugmentation framework (textbfDoAug) を提案する。具体的には、多様性指向の微調整手法を用いて、多彩なパラフレーズを生成することでテキストデータセットを増強できる多彩なパラフレーズとしてLLMを訓練する。その結果, ラベルの整合性を維持しつつ, 微調整LDMオーグメンタにより多様性が向上し, 下流タスクの堅牢性と性能が向上することがわかった。
論文参考訳（メタデータ） (2025-02-17T11:00:40Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文参考訳（メタデータ） (2024-03-18T23:41:52Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
Deepfake audio as a data augmentation technique for training automatic speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文参考訳（メタデータ） (2023-09-22T11:33:03Z)
LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive Prompt-Based Few-Shot Fine-Tuning [7.543506531838883]
本稿では,言語モデルの微調整手法であるLM-CPPFを提案する。複数のテキスト分類ベンチマーク実験により, この拡張法が他の手法より優れていることが示された。
論文参考訳（メタデータ） (2023-05-29T15:59:51Z)
Adversarial Word Dilution as Text Data Augmentation in Low-Resource Regime [35.95241861664597]
本稿では,テキストデータ拡張として強烈な正の例を生成できる逆単語解法(AWD)を提案する。テキストデータの増大という考え方は、未知語埋め込みと重み付けして強正語の埋め込みを減らすことである。 3つのベンチマークデータセットに関する実証研究により、AWDはより効果的なデータ拡張を生成でき、最先端のテキストデータ拡張手法より優れていることが示された。
論文参考訳（メタデータ） (2023-05-16T08:46:11Z)
GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation [9.501648136713694]
GPT-3のような大規模言語モデルは優れた数ショット学習者であり、自然なテキストプロンプトで制御できる。本稿では,大規模言語モデルを用いて現実的なテキストサンプルを生成する新しいデータ拡張手法を提案する。
論文参考訳（メタデータ） (2021-04-18T11:39:33Z)
Constructing Contrastive samples via Summarization for Text Classification with limited annotations [46.53641181501143]
テキスト要約を用いた言語タスクのコントラストサンプル構築のための新しい手法を提案する。我々はこれらのサンプルを教師付きコントラスト学習に使用し、アノテーションを限定したより良いテキスト表現を得る。実世界のテキスト分類データセット(Amazon-5、Yelp-5、AG News)の実験では、提案したコントラスト学習フレームワークの有効性が示されている。
論文参考訳（メタデータ） (2021-04-11T20:13:24Z)
Data Augmentation in Natural Language Processing: A Novel Text Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文参考訳（メタデータ） (2021-03-26T13:16:07Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)
BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文参考訳（メタデータ） (2020-04-21T13:30:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。