論文の概要: HateBERT: Retraining BERT for Abusive Language Detection in English
- arxiv url: http://arxiv.org/abs/2010.12472v2
- Date: Thu, 4 Feb 2021 10:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 22:44:36.583493
- Title: HateBERT: Retraining BERT for Abusive Language Detection in English
- Title(参考訳): HateBERT: 英語における虐待言語検出のためのBERTのリトレーニング
- Authors: Tommaso Caselli, Valerio Basile, Jelena Mitrovi\'c, Michael Granitzer
- Abstract要約: 本稿では,HateBERTについて紹介する。HateBERTは,英語における乱用言語検出のための再訓練されたBERTモデルである。
このモデルは、攻撃的、虐待的、憎悪的なコミュニティからのRedditコメントの大規模なデータセットであるRAL-Eでトレーニングされた。
- 参考スコア(独自算出の注目度): 2.7977494993495764
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce HateBERT, a re-trained BERT model for abusive
language detection in English. The model was trained on RAL-E, a large-scale
dataset of Reddit comments in English from communities banned for being
offensive, abusive, or hateful that we have collected and made available to the
public. We present the results of a detailed comparison between a general
pre-trained language model and the abuse-inclined version obtained by
retraining with posts from the banned communities on three English datasets for
offensive, abusive language and hate speech detection tasks. In all datasets,
HateBERT outperforms the corresponding general BERT model. We also discuss a
battery of experiments comparing the portability of the generic pre-trained
language model and its corresponding abusive language-inclined counterpart
across the datasets, indicating that portability is affected by compatibility
of the annotated phenomena.
- Abstract(参考訳): 本稿では,英語における乱用言語検出のための再訓練されたbertモデルであるhatbertを紹介する。
このモデルは、私たちが収集し一般公開した攻撃的、虐待的、憎悪的なコミュニティから、英語でRedditコメントの大規模なデータセットであるRAL-Eでトレーニングされた。
本稿では,禁止された3つの英語データセットから,攻撃的,虐待的言語,ヘイトスピーチ検出タスクに対して,禁止されたコミュニティからの投稿を再トレーニングすることにより得られた,一般的な事前学習された言語モデルと虐待傾向バージョンとの詳細な比較結果を示す。
すべてのデータセットにおいて、HateBERTは対応する一般的なBERTモデルより優れている。
また,データセットをまたいだ汎用的事前学習言語モデルのポータビリティと,それに対応する乱用的言語依存言語モデルのポータビリティを比較検討した結果,ポータビリティは注釈付き現象の互換性によって影響を受けることが示唆された。
関連論文リスト
- Comparative Study of Pre-Trained BERT Models for Code-Mixed
Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。
本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。
我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-05-25T05:10:28Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Abusive and Threatening Language Detection in Urdu using Boosting based
and BERT based models: A Comparative Approach [0.0]
本稿では,その共有タスクに基づいて,ウルドゥー語におけるコンテンツ検出を悪用し,脅かすための機械学習モデルについて検討する。
私たちのモデルは、それぞれF1scoreof 0.88と0.54のコンテンツ検出を嫌がらせと脅かすために、最初に導入されました。
論文 参考訳(メタデータ) (2021-11-27T20:03:19Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Transfer Learning for Mining Feature Requests and Bug Reports from
Tweets and App Store Reviews [4.446419663487345]
既存のアプローチでは、リコールと許容精度の高い機能要求やバグレポートの検出に失敗している。
我々は単言語と多言語の両方のBERTモデルを訓練し、その性能を最先端の手法と比較する。
論文 参考訳(メタデータ) (2021-08-02T06:51:13Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model [1.9336815376402716]
本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
論文 参考訳(メタデータ) (2020-08-14T16:47:25Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。
BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。
短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-24T23:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。