論文の概要: Abusive and Threatening Language Detection in Urdu using Boosting based
and BERT based models: A Comparative Approach
- arxiv url: http://arxiv.org/abs/2111.14830v1
- Date: Sat, 27 Nov 2021 20:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 14:42:45.423567
- Title: Abusive and Threatening Language Detection in Urdu using Boosting based
and BERT based models: A Comparative Approach
- Title(参考訳): boosting based と bert based モデルを用いた urdu における攻撃的・脅迫的言語検出 : 比較アプローチ
- Authors: Mithun Das, Somnath Banerjee, Punyajoy Saha
- Abstract要約: 本稿では,その共有タスクに基づいて,ウルドゥー語におけるコンテンツ検出を悪用し,脅かすための機械学習モデルについて検討する。
私たちのモデルは、それぞれF1scoreof 0.88と0.54のコンテンツ検出を嫌がらせと脅かすために、最初に導入されました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online hatred is a growing concern on many social media platforms. To address
this issue, different social media platforms have introduced moderation
policies for such content. They also employ moderators who can check the posts
violating moderation policies and take appropriate action. Academicians in the
abusive language research domain also perform various studies to detect such
content better. Although there is extensive research in abusive language
detection in English, there is a lacuna in abusive language detection in low
resource languages like Hindi, Urdu etc. In this FIRE 2021 shared task -
"HASOC- Abusive and Threatening language detection in Urdu" the organizers
propose an abusive language detection dataset in Urdu along with threatening
language detection. In this paper, we explored several machine learning models
such as XGboost, LGBM, m-BERT based models for abusive and threatening content
detection in Urdu based on the shared task. We observed the Transformer model
specifically trained on abusive language dataset in Arabic helps in getting the
best performance. Our model came First for both abusive and threatening content
detection with an F1scoreof 0.88 and 0.54, respectively.
- Abstract(参考訳): オンラインの憎しみは多くのソーシャルメディアプラットフォームに対する懸念が高まっている。
この問題に対処するため、さまざまなソーシャルメディアプラットフォームがこのようなコンテンツに対するモデレーションポリシーを導入している。
また、モデレーターを雇い、モデレーションポリシーに違反したポストをチェックし、適切な行動を取ることができる。
虐待言語研究分野の学者も、そのようなコンテンツをよりよく検出するために様々な研究を行っている。
英語では乱用言語検出には広範な研究があるが、ヒンディー語、ウルドゥー語などの低資源言語では乱用言語検出にはラグナが存在する。
この FIRE 2021 共有タスク "HASOC-Abusive and Threatening Language Detection in Urdu" では,言語検出を脅かすとともに,ウルドゥーにおける乱用言語検出データセットを提案する。
本稿では,XGboost,LGBM,m-BERTなどの機械学習モデルを用いて,共有タスクに基づくUrduにおけるコンテンツ検出を悪用・脅迫する手法を提案する。
アラビア語の乱用言語データセットに特化してトレーニングされたTransformerモデルは、最高のパフォーマンスを得るのに役立ちます。
私たちのモデルは、それぞれF1scoreof 0.88と0.54のコンテンツ検出を嫌がらせと脅かすために、最初に導入されました。
関連論文リスト
- Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts [2.406214748890827]
本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
論文 参考訳(メタデータ) (2023-08-28T16:18:50Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Data Bootstrapping Approaches to Improve Low Resource Abusive Language
Detection for Indic Languages [5.51252705016179]
Indic言語における多言語乱用音声の大規模分析を実演する。
本研究では,異なる言語間伝達機構について検討し,様々な多言語モデルによる虐待的音声検出の性能について検討する。
論文 参考訳(メタデータ) (2022-04-26T18:56:01Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - Hostility Detection in Hindi leveraging Pre-Trained Language Models [1.6436293069942312]
本稿では,Hindi Devanagariスクリプトのソーシャルメディア投稿をHostile or Non-Hostileとして分類するためのトランスファーラーニングに基づくアプローチを提案する。
敵の投稿はさらに分析され、憎しみ、フェイク、デファメーション、攻撃的かどうかが判断される。
アンサンブルや複雑な前処理なしに、堅牢で一貫したモデルを確立します。
論文 参考訳(メタデータ) (2021-01-14T08:04:32Z) - Detecting Social Media Manipulation in Low-Resource Languages [29.086752995321724]
悪意あるアクターは、低リソースのアクターを含む国や言語でコンテンツを共有します。
低リソース言語設定で悪意のあるアクターをどの程度検出できるかについて検討する。
テキスト埋め込みと転送学習を組み合わせることで,我々のフレームワークは,タガログに投稿する悪意のあるユーザを,有望な精度で検出することができる。
論文 参考訳(メタデータ) (2020-11-10T19:38:03Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。