論文の概要: Data Augmentation using Transformers and Similarity Measures for
Improving Arabic Text Classification
- arxiv url: http://arxiv.org/abs/2212.13939v1
- Date: Wed, 28 Dec 2022 16:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 14:16:30.098009
- Title: Data Augmentation using Transformers and Similarity Measures for
Improving Arabic Text Classification
- Title(参考訳): トランスフォーマーを用いたデータ拡張とアラビア文字分類改善のための類似度対策
- Authors: Dania Refai, Saleh Abo-Soud, Mohammad Abdel-Rahman
- Abstract要約: データ拡張(DA)は、データセットの妥当性問題を解決するための有望なアプローチである。
DAでは、利用可能なデータインスタンス上で異なる変換を行うことで、トレーニングデータインスタンスの量を増やします。
本稿では,最近の強力なモデリング手法であるAraGPT-2を用いた新しいアラビアDA手法を提案する。
AraSarcasm, ASTD, ATT, MOVIEの4つの感情アラビアデータセットを用いて実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning models are highly dependent on data to work effectively, and they
give a better performance upon training on big datasets. Massive research
exists in the literature to address the dataset adequacy issue. One promising
approach for solving dataset adequacy issues is the data augmentation (DA)
approach. In DA, the amount of training data instances is increased by making
different transformations on the available data instances to generate new
correct and representative data instances. DA increases the dataset size and
its variability, which enhances the model performance and its prediction
accuracy. DA also solves the class imbalance problem in the classification
learning techniques. Few studies have recently considered DA in the Arabic
language. These studies rely on traditional augmentation approaches, such as
paraphrasing by using rules or noising-based techniques. In this paper, we
propose a new Arabic DA method that employs the recent powerful modeling
technique, namely the AraGPT-2, for the augmentation process. The generated
sentences are evaluated in terms of context, semantics, diversity, and novelty
using the Euclidean, cosine, Jaccard, and BLEU distances. Finally, the AraBERT
transformer is used on sentiment classification tasks to evaluate the
classification performance of the augmented Arabic dataset. The experiments
were conducted on four sentiment Arabic datasets, namely AraSarcasm, ASTD, ATT,
and MOVIE. The selected datasets vary in size, label number, and unbalanced
classes. The results show that the proposed methodology enhanced the Arabic
sentiment text classification on all datasets with an increase in F1 score by
4% in AraSarcasm, 6% in ASTD, 9% in ATT, and 13% in MOVIE.
- Abstract(参考訳): 学習モデルは、効果的に働くためにデータに大きく依存しており、大きなデータセットのトレーニングでパフォーマンスが向上する。
データセットの妥当性の問題に対処する大規模な研究が文献に存在している。
データセットの妥当性問題を解決するための有望なアプローチは、データ拡張(DA)アプローチである。
daでは、利用可能なデータインスタンスで異なる変換を行い、新しい正しいデータインスタンスおよび代表データインスタンスを生成することで、トレーニングデータインスタンスの量を増やす。
DAはデータセットのサイズと変動性を高め、モデルの性能と予測精度を高める。
daは分類学習手法におけるクラス不均衡問題も解決する。
近年、アラビア語でDAとみなす研究はほとんどない。
これらの研究は、規則やノミジングに基づく手法によるパラフレージングのような伝統的な拡張アプローチに依存している。
本稿では,AraGPT-2と呼ばれる最近の強力なモデリング手法を応用したアラビアDA法を提案する。
生成された文は、ユークリッド、コサイン、ジャカード、BLEU距離を用いて、文脈、意味、多様性、新規性の観点から評価される。
最後に、アラビアデータセットの分類性能を評価するために、感情分類タスクにAraBERT変換器を用いる。
実験は、AraSarcasm、ASTD、ATT、MOVIEの4つの感情アラビアデータセットを用いて行われた。
選択されたデータセットはサイズ、ラベル番号、不均衡クラスによって異なる。
提案手法により,全データセットのアラビア語感情テキスト分類が向上し,アラサルカズムではf1得点が4%,astdでは6%,attでは9%,映画では13%増加した。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Advancing Fine-Grained Classification by Structure and Subject Preserving Augmentation [8.777277201807351]
本報告では,SaSPA: Structure and Subject Preserving Augmentationについて述べる。
本手法では, 実画像をガイダンスとして使用せず, 生成の柔軟性を高め, 多様性を高める。
従来のデータ拡張手法と最近のデータ拡張手法の両方に対して、広範な実験を行い、SaSPAをベンチマークする。
論文 参考訳(メタデータ) (2024-06-20T17:58:30Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - DAGAM: Data Augmentation with Generation And Modification [3.063234089519162]
事前訓練された言語モデルでは、モデルのサイズが非常に大きいため、不適合がしばしば発生する。
本稿では,大規模言語モデルの不適合問題を軽減するために,3つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T07:20:45Z) - Empirical evaluation of shallow and deep learning classifiers for Arabic
sentiment analysis [1.1172382217477126]
本研究は、アラビア語レビューの感情分析のためのディープラーニングモデルの性能を詳細に比較したものである。
この研究で使用されるデータセットは、アラビア語のホテルと本レビューデータセットである。
その結果,2次・複数ラベル分類では深層学習が浅層学習より優れており,文献で報告された同様の研究結果とは対照的であった。
論文 参考訳(メタデータ) (2021-12-01T14:45:43Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Data Augmentation Approaches in Natural Language Processing: A Survey [28.91744006146676]
データ拡張(DA)は、ディープラーニング技術が失敗する可能性のあるデータの不足シナリオを軽減する。
DA手法の主な焦点の1つは、トレーニングデータの多様性を改善することである。
DA手法をパラフレーズ化, ノイズ化, サンプリングなど, 拡張データの多様性に基づいて3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2021-10-05T07:35:32Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Zero-Resource Multi-Dialectal Arabic Natural Language Understanding [0.0]
本稿では,現代標準アラビア語(MSA)データのみに基づく事前学習言語モデルを微調整する場合に,Dialectal Arabic(DA)のゼロショット性能について検討する。
ラベルなしDAデータによる自己学習を提案し、名前付きエンティティ認識(NER)、POSタグ付け(POS)、SRD(Sarcasm Detection)のコンテキストに適用する。
その結果,未ラベルDAデータを用いた自己学習の有効性が示された。
論文 参考訳(メタデータ) (2021-04-14T02:29:27Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。