論文の概要: A little goes a long way: Improving toxic language classification
despite data scarcity
- arxiv url: http://arxiv.org/abs/2009.12344v2
- Date: Sat, 24 Oct 2020 19:31:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:58:51.435148
- Title: A little goes a long way: Improving toxic language classification
despite data scarcity
- Title(参考訳): データ不足にもかかわらず、毒性のある言語分類を改善する方法
- Authors: Mika Juuti, Tommi Gr\"ondahl, Adrian Flanagan and N. Asokan
- Abstract要約: いくつかの有害言語の検出は、ラベル付きトレーニングデータの極端な不足によって妨げられる。
データ拡張 - ラベル付きシードデータセットから新しい合成データを生成することで、助けになる。
本稿では,有毒な言語分類器間でのデータ拡張技術がパフォーマンスに与える影響について,最初の系統的研究を行う。
- 参考スコア(独自算出の注目度): 13.21611612938414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection of some types of toxic language is hampered by extreme scarcity of
labeled training data. Data augmentation - generating new synthetic data from a
labeled seed dataset - can help. The efficacy of data augmentation on toxic
language classification has not been fully explored. We present the first
systematic study on how data augmentation techniques impact performance across
toxic language classifiers, ranging from shallow logistic regression
architectures to BERT - a state-of-the-art pre-trained Transformer network. We
compare the performance of eight techniques on very scarce seed datasets. We
show that while BERT performed the best, shallow classifiers performed
comparably when trained on data augmented with a combination of three
techniques, including GPT-2-generated sentences. We discuss the interplay of
performance and computational overhead, which can inform the choice of
techniques under different constraints.
- Abstract(参考訳): いくつかの有害言語の検出は、ラベル付きトレーニングデータの極端な不足によって妨げられる。
データ拡張 - ラベル付きシードデータセットから新しい合成データを生成することは役立つ。
有毒な言語分類に対するデータ拡張の効果は、完全には研究されていない。
本稿では、ロジスティック回帰アーキテクチャから、最先端のトレーニング済みトランスフォーマネットワークであるBERTまで、有毒な言語分類器間でのデータ拡張技術がパフォーマンスに与える影響について、最初の系統的研究を行う。
我々は、非常に少ないシードデータセットで8つのテクニックのパフォーマンスを比較する。
GPT-2 生成文を含む3つの手法を併用したデータを用いた訓練では,BERT が最良で浅い分類器を比較検討した。
本稿では,異なる制約下でのテクニックの選択を通知できる性能と計算オーバーヘッドの相互作用について論じる。
関連論文リスト
- Artificial Data Point Generation in Clustered Latent Space for Small
Medical Datasets [4.542616945567623]
本稿では,クラスタ化潜在空間(AGCL)における人工データポイント生成手法を提案する。
AGCLは、合成データ生成により、小さな医療データセットの分類性能を向上させるように設計されている。
顔の表情データを利用してパーキンソン病検診に応用した。
論文 参考訳(メタデータ) (2024-09-26T09:51:08Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Enhancing Sentiment Analysis Results through Outlier Detection
Optimization [0.5439020425819]
本研究では,主観的ラベル付きテキストデータにおける外れ値の同定と対処の可能性について検討する。
本研究では,1クラス分類法であるDeep SVDDアルゴリズムを用いて,9つのテキストベース感情と感情分析データセットの外れ値を検出する。
論文 参考訳(メタデータ) (2023-11-25T18:20:43Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Adversarial Word Dilution as Text Data Augmentation in Low-Resource
Regime [35.95241861664597]
本稿では,テキストデータ拡張として強烈な正の例を生成できる逆単語解法(AWD)を提案する。
テキストデータの増大という考え方は、未知語埋め込みと重み付けして強正語の埋め込みを減らすことである。
3つのベンチマークデータセットに関する実証研究により、AWDはより効果的なデータ拡張を生成でき、最先端のテキストデータ拡張手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T08:46:11Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Evaluating BERT-based Pre-training Language Models for Detecting
Misinformation [2.1915057426589746]
オンラインに投稿された全ての情報に対する監督が欠如しているため、オンライン情報の質を制御することは困難である。
誤報の拡散による悪影響を抑えるために, 自動的噂検出技術が必要である。
本研究では、BERTに基づく事前学習言語モデルを用いて、テキストデータをベクトルにエンコードし、ニューラルネットワークモデルを用いてこれらのベクトルを分類し、誤情報を検出する。
論文 参考訳(メタデータ) (2022-03-15T08:54:36Z) - Can We Achieve More with Less? Exploring Data Augmentation for Toxic
Comment Classification [0.0]
本稿では、機械学習における最大の制限の一つに対処する。
我々は、データ拡張技術と機械学習アルゴリズムの組み合わせを利用して、小さなデータセットから高い精度の分類器を構築することができるかどうかを考察する。
論文 参考訳(メタデータ) (2020-07-02T04:43:31Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。