論文の概要: Evaluating the Effectiveness of Data Augmentation for Emotion Classification in Low-Resource Settings
- arxiv url: http://arxiv.org/abs/2406.05190v1
- Date: Fri, 7 Jun 2024 18:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 22:45:56.376042
- Title: Evaluating the Effectiveness of Data Augmentation for Emotion Classification in Low-Resource Settings
- Title(参考訳): 低リソース環境における感情分類におけるデータ拡張の有効性の評価
- Authors: Aashish Arora, Elsbeth Turcan,
- Abstract要約: 低リソースデータセットを用いたマルチラベル感情分類タスクにおける異なるデータ拡張手法の有効性を評価した。
Back Translationはオートエンコーダベースのアプローチよりも優れており、トレーニングインスタンス毎に複数の例を生成することで、さらなるパフォーマンス向上につながった。
- 参考スコア(独自算出の注目度): 1.387446067205368
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Data augmentation has the potential to improve the performance of machine learning models by increasing the amount of training data available. In this study, we evaluated the effectiveness of different data augmentation techniques for a multi-label emotion classification task using a low-resource dataset. Our results showed that Back Translation outperformed autoencoder-based approaches and that generating multiple examples per training instance led to further performance improvement. In addition, we found that Back Translation generated the most diverse set of unigrams and trigrams. These findings demonstrate the utility of Back Translation in enhancing the performance of emotion classification models in resource-limited situations.
- Abstract(参考訳): データ拡張は、利用可能なトレーニングデータの量を増やすことで、機械学習モデルのパフォーマンスを改善する可能性がある。
本研究では,低リソースデータセットを用いたマルチラベル感情分類タスクにおいて,異なるデータ拡張手法の有効性を評価する。
その結果、Back Translationはオートエンコーダベースのアプローチよりも優れており、トレーニングインスタンス毎に複数の例を生成することで、さらなるパフォーマンス向上を実現していることがわかった。
さらに、Back Translationはユニグラムとトリグラムの最も多様なセットを生成しました。
これらの知見は,資源制限状況下での感情分類モデルの性能向上にバックトランスレーションが有効であることを示す。
関連論文リスト
- GASE: Generatively Augmented Sentence Encoding [0.0]
本稿では,データ拡張のための生成テキストモデルを推論時に適用することにより,文の埋め込みを強化する手法を提案する。
Generatively Augmented Sentenceは、パラフレーズ、要約、あるいはキーワードの抽出によって生成される入力テキストの多様な合成変種を使用する。
生成的拡張により,ベースライン性能の低い埋め込みモデルの性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-11-07T17:53:47Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Contrastive Learning for Regression on Hyperspectral Data [4.931067393619175]
本稿では,ハイパースペクトルデータに対する回帰処理のためのコントラスト学習フレームワークを提案する。
合成および実超スペクトルデータセットの実験により、提案したフレームワークと変換により回帰モデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-02-12T21:33:46Z) - Adversarial Word Dilution as Text Data Augmentation in Low-Resource
Regime [35.95241861664597]
本稿では,テキストデータ拡張として強烈な正の例を生成できる逆単語解法(AWD)を提案する。
テキストデータの増大という考え方は、未知語埋め込みと重み付けして強正語の埋め込みを減らすことである。
3つのベンチマークデータセットに関する実証研究により、AWDはより効果的なデータ拡張を生成でき、最先端のテキストデータ拡張手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T08:46:11Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Emotions are Subtle: Learning Sentiment Based Text Representations Using
Contrastive Learning [6.6389732792316005]
比較学習の埋め込みを感情分析タスクに拡張する。
これらの埋め込みの微調整は、BERTベースの埋め込みの微調整よりも改善されていることを示す。
論文 参考訳(メタデータ) (2021-12-02T08:29:26Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。