論文の概要: Offensive Language Detection with BERT-based models, By Customizing
Attention Probabilities
- arxiv url: http://arxiv.org/abs/2110.05133v1
- Date: Mon, 11 Oct 2021 10:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:17:41.430229
- Title: Offensive Language Detection with BERT-based models, By Customizing
Attention Probabilities
- Title(参考訳): 意図確率のカスタマイズによるBERTモデルによる攻撃言語検出
- Authors: Peyman Alavi, Pouria Nikvand, Mehrnoush Shamsfard
- Abstract要約: 本稿では,攻撃言語検出タスクにおけるBERTモデルの性能向上手法を提案する。
我々は、注意マスクの入力を変更して、より効果的な単語埋め込みを作成することにより、注意確率をカスタマイズする。
最も良くなったのは、英語とペルシア語でそれぞれ2%と10%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes a novel study on using `Attention Mask' input in
transformers and using this approach for detecting offensive content in both
English and Persian languages. The paper's principal focus is to suggest a
methodology to enhance the performance of the BERT-based models on the
`Offensive Language Detection' task. Therefore, we customize attention
probabilities by changing the `Attention Mask' input to create more efficacious
word embeddings. To do this, we firstly tokenize the training set of the
exploited datasets (by BERT tokenizer). Then, we apply Multinomial Naive Bayes
to map these tokens to two probabilities. These probabilities indicate the
likelihood of making a text non-offensive or offensive, provided that it
contains that token. Afterwards, we use these probabilities to define a new
term, namely Offensive Score. Next, we create two separate (because of the
differences in the types of the employed datasets) equations based on Offensive
Scores for each language to re-distribute the `Attention Mask' input for paying
more attention to more offensive phrases. Eventually, we put the F1-macro score
as our evaluation metric and fine-tune several combinations of BERT with ANNs,
CNNs and RNNs to examine the effect of using this methodology on various
combinations. The results indicate that all models will enhance with this
methodology. The most improvement was 2% and 10% for English and Persian
languages, respectively.
- Abstract(参考訳): 本稿では, 変圧器における「注意マスク」入力の使用と, 英語とペルシア語の両方の攻撃的内容の検出にこの手法を用いた新しい研究について述べる。
この論文の主な焦点は、'offensive language detection'タスクでbertベースのモデルのパフォーマンスを向上させる方法を提案することである。
そこで,「アテンションマスク」入力を変更することで,より効果的な単語埋め込みを実現することにより,注意確率をカスタマイズする。
これを実現するために、まず、悪用されたデータセットのトレーニングセットをトークン化します(bert tokenizerによる)。
次に、これらのトークンを2つの確率にマッピングするために多項ナイーブベイを適用する。
これらの確率は、そのトークンを含むとすれば、テキストを不正または攻撃的にする可能性を示している。
その後、これらの確率を用いて新しい用語、すなわちOffensive Scoreを定義する。
次に、各言語に対する攻撃的スコアに基づいて、2つの個別の方程式(使用済みデータセットの種類の違いのため)を作成し、さらに攻撃的フレーズに注意を払うために「アテンションマスク」入力を再分配する。
最終的に、F1-macroスコアを評価基準とし、BERTとANN、CNN、RNNの組み合わせを微調整して、この手法が様々な組み合わせに与える影響を検討する。
その結果、この手法により全てのモデルが強化されることが示された。
最も改善された言語は英語とペルシア語でそれぞれ2%と10%であった。
関連論文リスト
- Beyond Image-Text Matching: Verb Understanding in Multimodal
Transformers Using Guided Masking [0.4543820534430524]
この研究はガイドマスキング(英語版)と呼ばれる代替の探索戦略を導入する。
提案手法はマスキングを用いて異なるモダリティを識別し、マスキングされた単語を高精度に予測するモデルの能力を評価する。
ViLBERT,LXMERT,UNITER,VisualBERTの誘導マスキングにより,正しい動詞を高精度に予測できることを示す。
論文 参考訳(メタデータ) (2024-01-29T21:22:23Z) - Muted: Multilingual Targeted Offensive Speech Identification and
Visualization [15.656203119337436]
Muted は多言語 HAP の内容を特定するシステムであり,その強度を示すために熱マップを用いて攻撃的引数とそのターゲットを表示する。
本稿では,攻撃的スパンとその対象を既存のデータセットで識別する上でのモデルの性能と,ドイツ語のテキストに新たなアノテーションを提示する。
論文 参考訳(メタデータ) (2023-12-18T16:50:27Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - AWTE-BERT:Attending to Wordpiece Tokenization Explicitly on BERT for
Joint Intent Classification and SlotFilling [5.684659127683238]
BERT (Bidirectional Representations from Transformers) は2つのタスクを共同で最適化する。
本稿では,ワードピーストークン化後の複数のサブトークン特徴を明示的にモデル化したBERTに基づく新しいジョイントモデルを提案する。
実験により,本モデルが意図分類精度,スロットフィリングF1,文レベルの意味的フレーム精度を大幅に向上することを確認した。
論文 参考訳(メタデータ) (2022-11-27T13:49:19Z) - A new approach to calculating BERTScore for automatic assessment of
translation quality [0.0]
本研究は,BERTScore測定値の文レベルにおける翻訳品質評価への適用性に焦点をあてる。
実験は、事前訓練された多言語BERTと、一対のモノリンガルBERTモデルを用いて行われた。
このような変換がミスマッチの防止に有効であることを実証し,マルチ言語モデルの埋め込みを用いた場合よりも,このアプローチの方が優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2022-03-10T19:25:16Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection [0.0]
GoogleのBERTのような単語の意味や文脈に敏感な言語モデルが、この敵対的攻撃を克服するのに有用かどうかを検討する。
5572のSMSスパムメッセージのデータセットを用いて,まず検出性能の基準を確立した。
そして、これらのメッセージに含まれる語彙のシソーラスを構築し、Mad-lib攻撃実験をセットアップした。
その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したのに対し、BERTモデルは96%を得た。
論文 参考訳(メタデータ) (2021-07-13T21:17:57Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。