論文の概要: Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers
- arxiv url: http://arxiv.org/abs/2103.14453v1
- Date: Fri, 26 Mar 2021 13:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:58:34.721563
- Title: Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers
- Title(参考訳): 自然言語処理におけるデータ拡張:長短テキスト分類のための新しいテキスト生成手法
- Authors: Markus Bayer, Marc-Andr\'e Kaufhold, Bj\"orn Buchhold, Marcel Keller,
J\"org Dallmeyer and Christian Reuter
- Abstract要約: 本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
- 参考スコア(独自算出の注目度): 8.19984844136462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many cases of machine learning, research suggests that the development of
training data might have a higher relevance than the choice and modelling of
classifiers themselves. Thus, data augmentation methods have been developed to
improve classifiers by artificially created training data. In NLP, there is the
challenge of establishing universal rules for text transformations which
provide new linguistic patterns. In this paper, we present and evaluate a text
generation method suitable to increase the performance of classifiers for long
and short texts. We achieved promising improvements when evaluating short as
well as long text tasks with the enhancement by our text generation method. In
a simulated low data regime additive accuracy gains of up to 15.53% are
achieved. As the current track of these constructed regimes is not universally
applicable, we also show major improvements in several real world low data
tasks (up to +4.84 F1 score). Since we are evaluating the method from many
perspectives, we also observe situations where the method might not be
suitable. We discuss implications and patterns for the successful application
of our approach on different types of datasets.
- Abstract(参考訳): 機械学習の多くのケースにおいて、学習データの開発は、分類器自体の選択やモデリングよりも高い関連性があることが研究によって示唆されている。
そこで,学習データを人工的に生成することで分類器を改善するためにデータ拡張手法を開発した。
NLPでは、新しい言語パターンを提供するテキスト変換の普遍的なルールを確立することが課題である。
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
テキスト生成手法の強化により,短いテキストタスクと長いテキストタスクの評価において,有望な改善を実現した。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
これらの構築された体制の現在の軌道は普遍的に適用できないため、いくつかの実世界の低データタスク(+4.84 F1スコアまで)において大きな改善が示される。
提案手法を多くの観点から評価しているので,本手法が適切でない状況も観察する。
異なるタイプのデータセットにアプローチをうまく適用するための意味とパターンについて論じる。
関連論文リスト
- Evaluating LLM Prompts for Data Augmentation in Multi-label Classification of Ecological Texts [1.565361244756411]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて重要な役割を果たす。
本研究では,ロシアのソーシャルメディアにおけるグリーンプラクティスの言及を検出するために,プロンプトベースのデータ拡張を適用した。
論文 参考訳(メタデータ) (2024-11-22T12:37:41Z) - Enhancing Text Generation in Joint NLG/NLU Learning Through Curriculum Learning, Semi-Supervised Training, and Advanced Optimization Techniques [0.0]
本研究では,NLG(Natural Language Generation)とNLU(Natural Language Understanding)の併用によってテキスト生成を改善する手法を開発した。
データは、クリーニング、トークン化、ストーミング、ストップワード削除など、注釈付きデータセットの収集と前処理によって作成される。
トランスフォーマーベースのエンコーダとデコーダ、長距離依存関係のキャプチャ、ソースターゲットシーケンスモデリングの改善。
政策勾配手法による強化学習、半教師付きトレーニング、注意機構の改善、および異なる近似を用いて、モデルを微調整し、複雑な言語タスクを効果的に処理する。
論文 参考訳(メタデータ) (2024-10-17T12:43:49Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。