論文の概要: GenAug: Data Augmentation for Finetuning Text Generators
- arxiv url: http://arxiv.org/abs/2010.01794v2
- Date: Sat, 10 Oct 2020 06:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:35:11.840157
- Title: GenAug: Data Augmentation for Finetuning Text Generators
- Title(参考訳): GenAug: 微調整テキストジェネレータのためのデータ拡張
- Authors: Steven Y. Feng, Varun Gangal, Dongyeop Kang, Teruko Mitamura, Eduard
Hovy
- Abstract要約: 本稿では,Yelp Reviews のサブセット上で GPT-2 を微調整するための外部知識を含む様々な拡張手法を提案し,評価する。
実験により,文字レベルの合成ノイズの挿入とハイパーネムのキーワード置換が効果的な拡張法であることを実証した。
- 参考スコア(独自算出の注目度): 21.96895115572357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate data augmentation for text generation, which we
call GenAug. Text generation and language modeling are important tasks within
natural language processing, and are especially challenging for low-data
regimes. We propose and evaluate various augmentation methods, including some
that incorporate external knowledge, for finetuning GPT-2 on a subset of Yelp
Reviews. We also examine the relationship between the amount of augmentation
and the quality of the generated text. We utilize several metrics that evaluate
important aspects of the generated text including its diversity and fluency.
Our experiments demonstrate that insertion of character-level synthetic noise
and keyword replacement with hypernyms are effective augmentation methods, and
that the quality of generations improves to a peak at approximately three times
the amount of original data.
- Abstract(参考訳): 本稿では,GenAugと呼ぶテキスト生成のためのデータ拡張について検討する。
テキスト生成と言語モデリングは自然言語処理における重要なタスクであり、特に低データ体制では困難である。
Yelp Reviewsのサブセット上でGPT-2を微調整するための外部知識を含む様々な拡張手法を提案し評価する。
また,増補量と生成テキストの品質との関係についても検討した。
生成したテキストの重要な側面を評価するいくつかの指標を利用し,その多様性と流動性を評価した。
実験により,文字レベルの合成ノイズの挿入とキーワードのハイパーネムへの置換が有効であることを示すとともに,世代数の品質が元のデータの約3倍のピークに向上することを示した。
関連論文リスト
- Decoding Decoded: Understanding Hyperparameter Effects in Open-Ended Text Generation [0.22499166814992438]
大規模言語モデル(LLM)の復号戦略は、テキスト生成タスクの重要な側面であるが、しばしば未探索の側面である。
オープンエンドテキスト生成において,ハイパーパラメータ選択がテキスト品質に与える影響を,大規模かつ包括的に分析する。
論文 参考訳(メタデータ) (2024-10-08T14:51:03Z) - Topic-to-essay generation with knowledge-based content selection [1.0625748132006634]
本稿では,言語モデルからの豊富な意味的知識をデコーダに統合する,コンテンツ選択モジュールを備えた新しいコピー機構モデルを提案する。
実験結果から,提案手法により得られたテキストの多様性を35%から59%向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-02-26T02:14:42Z) - RankAug: Augmented data ranking for text classification [0.0]
RankAugはテキストレベルのアプローチで、上位の強化テキストを検出し、フィルタリングする。
分類精度を35%まで向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-08T08:47:49Z) - A Benchmark for Text Expansion: Datasets, Metrics, and Baselines [87.47745669317894]
本研究はテキスト拡張(TE)の新たな課題として,平文の適切な位置に細粒度修飾子を挿入することを目的とする。
補完的な4つのアプローチを活用して、1200万の自動生成インスタンスと2Kの人間注釈付き参照を持つデータセットを構築します。
事前訓練されたテキストインフィルモデルの上にパイプラインと共同でLocate&Infillモデルを構築し、Text2Textベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T07:54:38Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Sequentially Controlled Text Generation [97.22539956688443]
GPT-2は、驚くほど人間らしく、長い文書が混ざり合ったり、人間のような文章構造に従わなかったりする文を生成する。
本研究では,長距離テキストにおける命令構造の問題について検討する。
生成と編集が可能な逐次制御型テキスト生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-01-05T21:23:51Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - A Survey on Retrieval-Augmented Text Generation [53.04991859796971]
Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。
まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
論文 参考訳(メタデータ) (2022-02-02T16:18:41Z) - Compression, Transduction, and Creation: A Unified Framework for
Evaluating Natural Language Generation [85.32991360774447]
自然言語生成(NLG)は幅広いタスクにまたがっており、それぞれが特定の目的のために機能する。
NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。
我々は,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
論文 参考訳(メタデータ) (2021-09-14T01:00:42Z) - Controllable Text Generation with Focused Variation [71.07811310799664]
Focused-Variation Network (FVN) は言語生成を制御する新しいモデルである。
FVNは、コードブック内の各属性に対する非結合なラテント空間を学習し、制御性と多様性の両方を可能にする。
我々は、注釈付きコンテンツとスタイルを持つ2つのテキスト生成データセット上でFVNを評価し、自動評価と人的評価により、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-09-25T06:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。