論文の概要: Enhanced Offensive Language Detection Through Data Augmentation
- arxiv url: http://arxiv.org/abs/2012.02954v1
- Date: Sat, 5 Dec 2020 05:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 12:13:42.771495
- Title: Enhanced Offensive Language Detection Through Data Augmentation
- Title(参考訳): データ拡張による攻撃的言語検出の強化
- Authors: Ruibo Liu, Guangxuan Xu, Soroush Vosoughi
- Abstract要約: ICWSM-2020 Data Challenge Task 2は、100万のラベル付きツイートを含むクラウドソースデータセットを使用して、攻撃的なコンテンツを特定することを目的としている。
データセットはクラス不均衡に悩まされており、特定のラベルは他のクラスと比較して非常に稀である。
本稿では,不均衡データと低リソースデータの分類性能を向上させる世代別データ拡張手法であるDagerを提案する。
- 参考スコア(独自算出の注目度): 2.2022484178680872
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Detecting offensive language on social media is an important task. The
ICWSM-2020 Data Challenge Task 2 is aimed at identifying offensive content
using a crowd-sourced dataset containing 100k labelled tweets. The dataset,
however, suffers from class imbalance, where certain labels are extremely rare
compared with other classes (e.g, the hateful class is only 5% of the data). In
this work, we present Dager (Data Augmenter), a generation-based data
augmentation method, that improves the performance of classification on
imbalanced and low-resource data such as the offensive language dataset. Dager
extracts the lexical features of a given class, and uses these features to
guide the generation of a conditional generator built on GPT-2. The generated
text can then be added to the training set as augmentation data. We show that
applying Dager can increase the F1 score of the data challenge by 11% when we
use 1% of the whole dataset for training (using BERT for classification);
moreover, the generated data also preserves the original labels very well. We
test Dager on four different classifiers (BERT, CNN, Bi-LSTM with attention,
and Transformer), observing universal improvement on the detection, indicating
our method is effective and classifier-agnostic.
- Abstract(参考訳): ソーシャルメディア上で攻撃的言語を検出することは重要な課題である。
ICWSM-2020 Data Challenge Task 2は、100万のラベル付きツイートを含むクラウドソースデータセットを使用して、攻撃的なコンテンツを特定することを目的としている。
しかしデータセットはクラスの不均衡に苦しんでおり、特定のラベルは他のクラスと比較すると極めて稀である(例えば、ヘイトフルクラスはデータのわずか5%)。
本研究では,攻撃言語データセットなどの不均衡・低リソースデータに対する分類性能を向上させる,世代別データ拡張手法であるdager(data augmenteder)を提案する。
dager氏は与えられたクラスの語彙的特徴を抽出し、これらの特徴を使ってgpt-2上に構築された条件付きジェネレータの生成をガイドしている。
生成されたテキストは、拡張データとしてトレーニングセットに追加できる。
Dagerを適用することで、トレーニングにデータセット全体の1%(分類にBERTを使用する)を使用する場合、データチャレンジのF1スコアを11%向上させることができる。
我々は,Daggerを4つの異なる分類器(BERT,CNN,Bi-LSTM,Transformer)でテストし,検出の普遍的改善を観察し,本手法が有効であり,分類器に依存しないことを示す。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - PromptMix: A Class Boundary Augmentation Method for Large Language Model
Distillation [19.351192775314612]
そこで本研究では,LLMの命令に従う能力を利用して,より有用な拡張データを生成する手法を提案する。
具体的PromptMix法は,1) クラス境界付近で挑戦的なテキスト拡張を生成するが,境界例の生成はデータセットにおける偽陽性のリスクを増加させる。
Banking77, TREC6, Subjectivity (SUBJ) と Twitter Complaints の4つのテキスト分類データセットに対して, 提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-10-22T05:43:23Z) - Improving Classifier Robustness through Active Generation of Pairwise
Counterfactuals [22.916599410472102]
本稿では,カウンターファクト・ジェネレーティブ・モデルを用いて多種多様なカウンターファクト・モデルを生成する新しいフレームワークを提案する。
少量の人間注釈付き対実データ(10%)で、学習ラベルを用いた対実データ拡張データセットを生成することができることを示す。
論文 参考訳(メタデータ) (2023-05-22T23:19:01Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - A new data augmentation method for intent classification enhancement and
its application on spoken conversation datasets [23.495743195811375]
本稿では,Nearest Neighbors Scores Improvement (NNSI)アルゴリズムを提案する。
NNSIは、高度に曖昧なサンプルを自動的に選択し、それらを高精度にラベルすることで、手動ラベリングの必要性を減らす。
2つの大規模実生活音声対話システムにおけるNNSIの使用を実演した。
論文 参考訳(メタデータ) (2022-02-21T11:36:19Z) - Unsupervised Selective Labeling for More Effective Semi-Supervised
Learning [46.414510522978425]
教師なしの選択的なラベル付けは、与えられたラベル付きデータの最先端のアクティブラーニングよりもSSLメソッドを一貫して改善する。
私たちの仕事は、実用的で効率的なSSLの新しい標準を設定します。
論文 参考訳(メタデータ) (2021-10-06T18:25:50Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - Robustness to Spurious Correlations in Text Classification via
Automatically Generated Counterfactuals [8.827892752465958]
自動生成された反実データを用いてトレーニングデータを増強し、堅牢なテキスト分類器のトレーニングを提案する。
因果的特徴を強調し,非因果的特徴を強調することで,ロバスト分類器は有意義で信頼性の高い予測を行うことを示す。
論文 参考訳(メタデータ) (2020-12-18T03:57:32Z) - FIND: Human-in-the-Loop Debugging Deep Text Classifiers [55.135620983922564]
隠れた機能を無効にすることで、人間がディープラーニングテキスト分類器をデバッグできるフレームワークであるFINDを提案する。
実験により、人間はFINDを使用することで、異なる種類の不完全なデータセットの下で訓練されたCNNテキスト分類器を改善することができる。
論文 参考訳(メタデータ) (2020-10-10T12:52:53Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。