論文の概要: Data Augmentation for Emotion Detection in Small Imbalanced Text Data
- arxiv url: http://arxiv.org/abs/2310.17015v3
- Date: Mon, 30 Oct 2023 13:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 19:11:28.190659
- Title: Data Augmentation for Emotion Detection in Small Imbalanced Text Data
- Title(参考訳): 小さな不均衡テキストデータにおける感情検出のためのデータ拡張
- Authors: Anna Koufakou, Diego Grisales, Ragy Costa de jesus, Oscar Fox
- Abstract要約: 課題の1つは、感情で注釈付けされた利用可能なデータセットが不足していることだ。
我々は、小さな不均衡なデータセットに適用した場合に、データ拡張技術が与える影響を正確に調査した。
実験結果から,分類器モデルの訓練に拡張データを用いることで,大幅な改善が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Emotion recognition in text, the task of identifying emotions such as joy or
anger, is a challenging problem in NLP with many applications. One of the
challenges is the shortage of available datasets that have been annotated with
emotions. Certain existing datasets are small, follow different emotion
taxonomies and display imbalance in their emotion distribution. In this work,
we studied the impact of data augmentation techniques precisely when applied to
small imbalanced datasets, for which current state-of-the-art models (such as
RoBERTa) under-perform. Specifically, we utilized four data augmentation
methods (Easy Data Augmentation EDA, static and contextual Embedding-based, and
ProtAugment) on three datasets that come from different sources and vary in
size, emotion categories and distributions. Our experimental results show that
using the augmented data when training the classifier model leads to
significant improvements. Finally, we conducted two case studies: a) directly
using the popular chat-GPT API to paraphrase text using different prompts, and
b) using external data to augment the training set. Results show the promising
potential of these methods.
- Abstract(参考訳): テキストにおける感情認識は、喜びや怒りなどの感情を識別するタスクであり、多くのアプリケーションでNLPにおいて難しい問題である。
課題のひとつは、感情を注釈付けしたデータセットが不足していることだ。
既存のデータセットは小さく、異なる感情分類に従い、感情分布に不均衡を示す。
本研究では,RoBERTaのような現在の最先端モデルが低性能である小さな不均衡データセットに適用した場合に,データ拡張技術が与える影響について検討した。
具体的には、異なるソースから派生したサイズ、感情カテゴリー、分布の異なる3つのデータセットに対して、4つのデータ拡張方法(簡易データ拡張EDA、静的および文脈的埋め込みベース、ProtAugment)を利用した。
実験結果から,分類器モデルの訓練に拡張データを用いることで,大幅な改善が得られた。
最後に2つのケーススタディを行いました
a) 一般的なチャット-GPT APIを使って、異なるプロンプトを使ってテキストを言い換え、
b) トレーニングセットを補強するために外部データを使用する。
結果はこれらの手法の有望な可能性を示している。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - eMotions: A Large-Scale Dataset for Emotion Recognition in Short Videos [7.011656298079659]
短いビデオ(SV)が普及すると、SVにおける感情認識の必要性が生じる。
SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。
本稿では,ビデオトランスフォーマを用いて意味的関連表現をよりよく学習する,エンドツーエンドのベースライン方式AV-CPNetを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:24:30Z) - Automatically Classifying Emotions based on Text: A Comparative
Exploration of Different Datasets [0.0]
関連文献で最近紹介された3つのデータセットに注目した。
従来型および最先端のディープラーニングモデルの性能について、データに異なる特性が存在する場合について検討する。
実験により,RoBERTaのような最先端モデルがすべてのケースで最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-02-28T16:34:55Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Persian Emotion Detection using ParsBERT and Imbalanced Data Handling
Approaches [0.0]
EmoParsとArmanEmoは、ペルシャ語のための新しい人間のラベル付き感情データセットである。
EmoParsを評価し,ArmanEmoと比較した。
我々のモデルはArmanEmoとEmoParsでそれぞれ0.81と0.76のマクロ平均F1スコアに達する。
論文 参考訳(メタデータ) (2022-11-15T10:22:49Z) - A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition [11.928873764689458]
感情認識のための一般的なディープラーニングアプローチを包括的に評価する。
音声信号の長距離依存性が感情認識に重要であることを示す。
スピード/レート向上は、モデル間で最も堅牢なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2022-11-09T17:27:03Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - A cross-corpus study on speech emotion recognition [29.582678406878568]
本研究では,行動感情から学習した情報が,自然感情の検出に有用かどうかを検討する。
成人英語の4つのデータセットは、行動的、誘惑的、自然な感情をカバーしている。
性能劣化を正確に調査するための最先端モデルを提案する。
論文 参考訳(メタデータ) (2022-07-05T15:15:22Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。