論文の概要: Generating artificial texts as substitution or complement of training
data
- arxiv url: http://arxiv.org/abs/2110.13016v1
- Date: Mon, 25 Oct 2021 14:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 16:36:10.436051
- Title: Generating artificial texts as substitution or complement of training
data
- Title(参考訳): 学習データの置換や補体としての人工テキストの生成
- Authors: Vincent Claveau, Antoine Chaffin, Ewa Kijak
- Abstract要約: 本稿では,教師付き学習課題のための学習データを生成するために人工データを使用するという課題について考察する。
微調整GPT-2モデルを用いた人工データを用いたWeb関連分類タスクにおいて,異なる実験を行った。
以上の結果から,そのような人工データは一定の拡張で使用できるが,性能を著しく向上させるためには前処理が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 1.3750624267664153
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The quality of artificially generated texts has considerably improved with
the advent of transformers. The question of using these models to generate
learning data for supervised learning tasks naturally arises. In this article,
this question is explored under 3 aspects: (i) are artificial data an efficient
complement? (ii) can they replace the original data when those are not
available or cannot be distributed for confidentiality reasons? (iii) can they
improve the explainability of classifiers? Different experiments are carried
out on Web-related classification tasks -- namely sentiment analysis on product
reviews and Fake News detection -- using artificially generated data by
fine-tuned GPT-2 models. The results show that such artificial data can be used
in a certain extend but require pre-processing to significantly improve
performance. We show that bag-of-word approaches benefit the most from such
data augmentation.
- Abstract(参考訳): 人工的なテキストの品質は、トランスの出現によって大幅に向上した。
これらのモデルを使って教師付き学習タスクの学習データを生成するという問題は自然に発生する。
この記事では、この疑問を3つの側面で探求する。
i)人工データは効率的な補体か?
(ii)使用できない場合や機密のために配布できない場合は、元のデータを置き換えることができるか?
(iii)分類器の説明性を向上させることができるか?
製品レビューにおける感情分析やフェイクニュース検出など,Web関連の分類タスクにおいて,微調整GPT-2モデルを用いて人工的に生成されたデータを用いて異なる実験を行う。
以上の結果から,そのような人工データは一定の拡張で使用できるが,性能を著しく向上させるためには前処理が必要であることがわかった。
このようなデータ拡張の恩恵が最も大きいのは、back-of-wordアプローチである。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Data Augmentation for Sparse Multidimensional Learning Performance Data Using Generative AI [17.242331892899543]
学習パフォーマンスデータは、適応学習における正しい解答や問題解決の試みを記述している。
学習性能データは、適応的なアイテム選択のため、ほとんどの実世界のアプリケーションでは、非常にスパースな(80%(sim)90%の欠落)傾向にある。
本稿では,学習者のデータの分散性に対処するために,学習者のデータを拡張するための体系的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T00:25:07Z) - Exploring the Potential of Synthetic Data to Replace Real Data [16.89582896061033]
実データを置き換えるための合成データのポテンシャルは、ドメイン間の実画像の数や、トレーニングされたモデルを評価するためのテストセットによって異なることがわかった。
train2test 距離と $textAP_textt2t$ という2つの新しい指標を導入し、合成データを用いたクロスドメイントレーニングセットの性能を評価する。
論文 参考訳(メタデータ) (2024-08-26T18:20:18Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。
提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。
その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文 参考訳(メタデータ) (2023-12-09T11:37:07Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Using GPT-2 to Create Synthetic Data to Improve the Prediction
Performance of NLP Machine Learning Classification Models [0.0]
機械学習モデルの性能を高めるために合成データを利用するのが一般的になっている。
Yelpのピザレストランレビューデータセットを使って、トレーニング済みのGPT-2 Transformer Modelを微調整して、合成ピザレビューデータを生成しました。
そして、この合成データを元の本物のデータと組み合わせて、新しい共同データセットを作成しました。
論文 参考訳(メタデータ) (2021-04-02T20:20:42Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - FIND: Human-in-the-Loop Debugging Deep Text Classifiers [55.135620983922564]
隠れた機能を無効にすることで、人間がディープラーニングテキスト分類器をデバッグできるフレームワークであるFINDを提案する。
実験により、人間はFINDを使用することで、異なる種類の不完全なデータセットの下で訓練されたCNNテキスト分類器を改善することができる。
論文 参考訳(メタデータ) (2020-10-10T12:52:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。