論文の概要: Neural Models for Offensive Language Detection
- arxiv url: http://arxiv.org/abs/2106.14609v1
- Date: Sun, 30 May 2021 13:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 01:17:12.539381
- Title: Neural Models for Offensive Language Detection
- Title(参考訳): 攻撃的言語検出のためのニューラルモデル
- Authors: Ehab Hamdy
- Abstract要約: 攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offensive language detection is an ever-growing natural language processing
(NLP) application. This growth is mainly because of the widespread usage of
social networks, which becomes a mainstream channel for people to communicate,
work, and enjoy entertainment content. Many incidents of sharing aggressive and
offensive content negatively impacted society to a great extend. We believe
contributing to improving and comparing different machine learning models to
fight such harmful contents is an important and challenging goal for this
thesis. We targeted the problem of offensive language detection for building
efficient automated models for offensive language detection. With the recent
advancements of NLP models, specifically, the Transformer model, which tackled
many shortcomings of the standard seq-to-seq techniques. The BERT model has
shown state-of-the-art results on many NLP tasks. Although the literature still
exploring the reasons for the BERT achievements in the NLP field. Other
efficient variants have been developed to improve upon the standard BERT, such
as RoBERTa and ALBERT. Moreover, due to the multilingual nature of text on
social media that could affect the model decision on a given tween, it is
becoming essential to examine multilingual models such as XLM-RoBERTa trained
on 100 languages and how did it compare to unilingual models. The RoBERTa based
model proved to be the most capable model and achieved the highest F1 score for
the tasks. Another critical aspect of a well-rounded offensive language
detection system is the speed at which a model can be trained and make
inferences. In that respect, we have considered the model run-time and
fine-tuned the very efficient implementation of FastText called BlazingText
that achieved good results, which is much faster than BERT-based models.
- Abstract(参考訳): offensive language detectionは、成長を続ける自然言語処理(nlp)アプリケーションである。
この成長は主にソーシャルネットワークの普及によるものであり、人々がエンターテイメントコンテンツをコミュニケーションし、仕事し、楽しむための主流のチャンネルとなっている。
攻撃的で攻撃的なコンテンツを共有する多くの出来事は、社会に大きな影響を及ぼした。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標であると考えています。
攻撃言語検出のための効率的な自動モデルを構築するための攻撃言語検出の課題を目標とした。
近年のnlpモデル、特にトランスフォーマーモデルの発展に伴い、標準的なseq-to-seq技術の欠点に対処した。
BERTモデルは、多くのNLPタスクに対して最先端の結果を示している。
文学はまだNLP分野におけるBERTの業績の理由を探求している。
その他、RoBERTaやALBERTといった標準的なBERTを改善するために、効率的なバリエーションが開発されている。
さらに,ソーシャルメディア上でのテキストの多言語性から,100言語で訓練されたXLM-RoBERTaのような多言語モデルや,非言語モデルとの比較が重要になっている。
RoBERTaベースのモデルは最も有能なモデルであることが判明し、タスクの最高スコアを達成した。
十分に取り囲まれた攻撃的言語検出システムのもう一つの重要な側面は、モデルを訓練し、推論できる速度である。
その点において、我々は、このモデルを実行時に考慮し、BlazingTextと呼ばれる非常に効率的なFastTextの実装を微調整した。
関連論文リスト
- A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。