論文の概要: Can We Achieve More with Less? Exploring Data Augmentation for Toxic
Comment Classification
- arxiv url: http://arxiv.org/abs/2007.00875v1
- Date: Thu, 2 Jul 2020 04:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 12:48:33.218754
- Title: Can We Achieve More with Less? Exploring Data Augmentation for Toxic
Comment Classification
- Title(参考訳): より少ないことで達成できるのか?
有害コメント分類のためのデータ拡張の検討
- Authors: Chetanya Rastogi, Nikka Mofid, Fang-I Hsiao
- Abstract要約: 本稿では、機械学習における最大の制限の一つに対処する。
我々は、データ拡張技術と機械学習アルゴリズムの組み合わせを利用して、小さなデータセットから高い精度の分類器を構築することができるかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles one of the greatest limitations in Machine Learning: Data
Scarcity. Specifically, we explore whether high accuracy classifiers can be
built from small datasets, utilizing a combination of data augmentation
techniques and machine learning algorithms. In this paper, we experiment with
Easy Data Augmentation (EDA) and Backtranslation, as well as with three popular
learning algorithms, Logistic Regression, Support Vector Machine (SVM), and
Bidirectional Long Short-Term Memory Network (Bi-LSTM). For our
experimentation, we utilize the Wikipedia Toxic Comments dataset so that in the
process of exploring the benefits of data augmentation, we can develop a model
to detect and classify toxic speech in comments to help fight back against
cyberbullying and online harassment. Ultimately, we found that data
augmentation techniques can be used to significantly boost the performance of
classifiers and are an excellent strategy to combat lack of data in NLP
problems.
- Abstract(参考訳): 本稿では、機械学習における最大の制限の一つに対処する。
具体的には、データ拡張技術と機械学習アルゴリズムの組み合わせを利用して、高精度な分類器を小さなデータセットから構築できるかどうかを検討する。
本稿では,データ拡張(eda)とバックトランスレーション,およびロジスティック回帰(logistic regression),サポートベクターマシン(svm),双方向長短期記憶ネットワーク(bi-lstm)の3つの一般的な学習アルゴリズムについて実験を行う。
実験のために、wikipedia toxic commentsデータセットを利用して、データ拡張の利点を探求する過程で、サイバーいじめやオンラインハラスメントに対抗するために、コメント中の有毒な発言を検出し分類するモデルを開発することができる。
最終的に、データ拡張技術は分類器の性能を大幅に向上させ、NLP問題におけるデータの欠如に対処するための優れた戦略であることがわかった。
関連論文リスト
- A Study of Data Augmentation Techniques to Overcome Data Scarcity in Wound Classification using Deep Learning [0.0]
データ拡張により、最先端モデル上での分類性能、F1スコアが最大11%向上することを示す。
GANをベースとした拡張実験により, DE-GANを用いて創傷像をよりリッチに生成できることが証明された。
論文 参考訳(メタデータ) (2024-11-04T00:24:50Z) - Towards Robust and Cost-Efficient Knowledge Unlearning for Large Language Models [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMのための堅牢で効率的なアンラーニングのための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Enhancing Sentiment Analysis Results through Outlier Detection
Optimization [0.5439020425819]
本研究では,主観的ラベル付きテキストデータにおける外れ値の同定と対処の可能性について検討する。
本研究では,1クラス分類法であるDeep SVDDアルゴリズムを用いて,9つのテキストベース感情と感情分析データセットの外れ値を検出する。
論文 参考訳(メタデータ) (2023-11-25T18:20:43Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Self-omics: A Self-supervised Learning Framework for Multi-omics Cancer
Data [4.843654097048771]
SSL(Self-Supervised Learning)メソッドは、通常はラベル付きデータを扱うために使用される。
我々は、SSLコンポーネントからなる新しい事前学習パラダイムを開発する。
本手法はTGAパン癌データセットの癌型分類における最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-03T11:20:12Z) - Few-Shot Class-Incremental Learning via Entropy-Regularized Data-Free
Replay [52.251188477192336]
FSCIL (Few-shot class-incremental Learning) は,データ制限のあるクラスを段階的に学習する深層学習システムを実現するために提案されている。
データリプレイの採用は驚くほど好都合である,という実証的な結果を通じて示します。
本研究では,実データにアクセスすることなく,ジェネレータによるデータ合成が可能なデータフリーリプレイを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:30:51Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - A little goes a long way: Improving toxic language classification
despite data scarcity [13.21611612938414]
いくつかの有害言語の検出は、ラベル付きトレーニングデータの極端な不足によって妨げられる。
データ拡張 - ラベル付きシードデータセットから新しい合成データを生成することで、助けになる。
本稿では,有毒な言語分類器間でのデータ拡張技術がパフォーマンスに与える影響について,最初の系統的研究を行う。
論文 参考訳(メタデータ) (2020-09-25T17:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。