論文の概要: DeepHateExplainer: Explainable Hate Speech Detection in Under-resourced
Bengali Language
- arxiv url: http://arxiv.org/abs/2012.14353v2
- Date: Sun, 21 Feb 2021 13:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 11:12:59.351141
- Title: DeepHateExplainer: Explainable Hate Speech Detection in Under-resourced
Bengali Language
- Title(参考訳): DeepHateExplainer: アンダーリソースベンガル語における説明可能なヘイト音声検出
- Authors: Md. Rezaul Karim and Sumon Kanti Dey and Bharathi Raja Chakravarthi
- Abstract要約: ベンガル語からのヘイトスピーチ検出のための説明可能なアプローチを提案する。
我々のアプローチでは、ベンガルのテキストは、政治的、個人的、地政学的、宗教的憎悪に分類する前に、最初に包括的に前処理される。
機械学習(線形および木ベースのモデル)およびディープニューラルネットワーク(CNN、Bi-LSTM、Conv-LSTMなどの単語埋め込み)に対する評価は、それぞれ政治的、個人的、地政学的、宗教的憎悪に対して、F1スコアは84%、90%、88%、88%である。
- 参考スコア(独自算出の注目度): 1.2246649738388389
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The exponential growths of social media and micro-blogging sites not only
provide platforms for empowering freedom of expression and individual voices,
but also enables people to express anti-social behavior like online harassment,
cyberbullying, and hate speech. Numerous works have been proposed to utilize
the textual data for social and anti-social behavior analysis, by predicting
the contexts mostly for highly-resourced languages like English. However, some
languages are under-resourced, e.g., South Asian languages like Bengali, that
lack computational resources for accurate natural language processing (NLP). In
this paper, we propose an explainable approach for hate speech detection from
the under-resourced Bengali language, which we called DeepHateExplainer. In our
approach, Bengali texts are first comprehensively preprocessed, before
classifying them into political, personal, geopolitical, and religious hates,
by employing the neural ensemble method of different transformer-based neural
architectures (i.e., monolingual Bangla BERT-base, multilingual
BERT-cased/uncased, and XLM-RoBERTa). Subsequently, important (most and least)
terms are identified with sensitivity analysis and layer-wise relevance
propagation (LRP), before providing human-interpretable explanations. Finally,
to measure the quality of the explanation (i.e., faithfulness), we compute the
comprehensiveness and sufficiency. Evaluations against machine learning (linear
and tree-based models) and deep neural networks (i.e., CNN, Bi-LSTM, and
Conv-LSTM with word embeddings) baselines yield F1 scores of 84%, 90%, 88%, and
88%, for political, personal, geopolitical, and religious hates, respectively,
outperforming both ML and DNN baselines.
- Abstract(参考訳): ソーシャルメディアやマイクロブログサイトの指数関数的な成長は、表現の自由と個人の声の強化のためのプラットフォームを提供するだけでなく、オンラインハラスメント、サイバーいじめ、ヘイトスピーチなどの反社会的行動を表現することもできる。
社会的および反社会的行動分析にテキストデータを活用するために、主に英語のような高リソース言語に対してコンテキストを予測することで、多くの研究が提案されている。
しかし、ベンガル語のような、正確な自然言語処理(NLP)のための計算資源が不足している、一部の言語はリソース不足である。
本稿では,我々はdeephateexplainerという語源の少ないベンガル語からヘイトスピーチを検出するための説明可能なアプローチを提案する。
このアプローチでは、ベンガルテキストはまず、政治的、個人的、地政学的、宗教的嫌悪に分類される前に、様々なトランスフォーマーベースのニューラルアンサンブル法(単言語バングラ・バートベース、多言語bert-cased/uncased、xlm-roberta)を用いて、包括的に前処理される。
その後、人間の解釈可能な説明を提供する前に、重要な(ほとんど、少なくとも)用語が感度分析とレイヤワイド関連伝播(LRP)で識別される。
最後に、説明の質(すなわち忠実さ)を測定するために、包括性と十分性を計算する。
機械学習(リニアモデルとツリーベースモデル)とディープニューラルネットワーク(CNN、Bi-LSTM、および単語埋め込みによるConv-LSTM)に対する評価は、MLとDNNのベースラインを上回る政治的、個人的、地政学的、宗教的憎悪に対して、F1スコアが84%、90%、88%、そして88%となる。
関連論文リスト
- Analysis and Detection of Multilingual Hate Speech Using Transformer
Based Deep Learning [7.332311991395427]
ヘイトスピーチの普及に伴い,NLPタスクとしての自動検出の需要が高まっている。
本研究では、Twitter、Facebook、WhatsApp、Instagramなどのソーシャルメディアにおけるヘイトスピーチを検出するために、トランスフォーマーベースのモデルを提案する。
金の標準データセットは、著名な研究者Zeerak Talat、Sara Tonelli、Melanie Siegel、Rezaul Karimから収集された。
ヘイトスピーチ検出のための提案されたモデルの成功率は、ベンガルデータセットの精度の高い既存のベースラインや最先端モデルよりも高く、英語では89%、ドイツ語では91%である。
論文 参考訳(メタデータ) (2024-01-19T20:40:23Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Content-Localization based System for Analyzing Sentiment and Hate
Behaviors in Low-Resource Dialectal Arabic: English to Levantine and Gulf [5.2957928879391]
本稿では,高リソース言語における資源の内容を,低リソースアラビア語方言にローカライズすることを提案する。
我々は、コンテンツローカライゼーションに基づくニューラルマシン翻訳を用いて、レバンタインとガルフの2つの低リソースアラビア語方言に対する感情と憎悪の分類器を開発する。
以上の結果から,同一言語における方言の特異性を考慮し,方言的側面を無視することが,誤解を招く可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T15:37:33Z) - Harnessing Pre-Trained Sentence Transformers for Offensive Language
Detection in Indian Languages [0.6526824510982802]
この研究はヘイトスピーチ検出の領域に踏み込み、ベンガル語、アサメセ語、グジャラート語という3つの低リソースのインドの言語に特に重点を置いている。
この課題は、ツイートが攻撃的コンテンツを含むか、非攻撃的コンテンツを含むかを識別することを目的としたテキスト分類タスクである。
我々は,事前学習したBERTモデルとSBERTモデルを微調整し,ヘイトスピーチの同定の有効性を評価する。
論文 参考訳(メタデータ) (2023-10-03T17:53:09Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Multimodal Hate Speech Detection from Bengali Memes and Texts [0.6709991492637819]
本稿では,マルチモーダルなベンガルミームとテキストからのヘイトスピーチ検出について述べる。
我々は、ヘイトスピーチ検出のためのテキスト情報と視覚情報を分析するために、複数のニューラルネットワークを訓練する。
本研究は,ベンガル語におけるヘイトスピーチ検出にはミームが適度に有用であることが示唆する。
論文 参考訳(メタデータ) (2022-04-19T11:15:25Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Classification Benchmarks for Under-resourced Bengali Language based on
Multichannel Convolutional-LSTM Network [3.0168410626760034]
われわれはBengFastTextという2億5000万記事をベースに、これまでで最大のベンガル語埋め込みモデルを構築している。
単語の埋め込みを多チャンネル畳み込み-LSTMネットワークに組み込んで、さまざまなタイプのヘイトスピーチ、文書分類、感情分析を予測する。
論文 参考訳(メタデータ) (2020-04-11T22:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。