Fugu-MT 論文翻訳(概要): Analysis and Detection of Multilingual Hate Speech Using Transformer Based Deep Learning

論文の概要: Analysis and Detection of Multilingual Hate Speech Using Transformer Based Deep Learning

arxiv url: http://arxiv.org/abs/2401.11021v1
Date: Fri, 19 Jan 2024 20:40:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 18:33:09.955982
Title: Analysis and Detection of Multilingual Hate Speech Using Transformer Based Deep Learning
Title（参考訳）: トランスフォーマーに基づくディープラーニングを用いた多言語ヘイトスピーチの分析と検出
Authors: Arijit Das, Somashree Nandy, Rupam Saha, Srijan Das, and Diganta Saha
Abstract要約: ヘイトスピーチの普及に伴い,NLPタスクとしての自動検出の需要が高まっている。本研究では、Twitter、Facebook、WhatsApp、Instagramなどのソーシャルメディアにおけるヘイトスピーチを検出するために、トランスフォーマーベースのモデルを提案する。金の標準データセットは、著名な研究者Zeerak Talat、Sara Tonelli、Melanie Siegel、Rezaul Karimから収集された。ヘイトスピーチ検出のための提案されたモデルの成功率は、ベンガルデータセットの精度の高い既存のベースラインや最先端モデルよりも高く、英語では89%、ドイツ語では91%である。
参考スコア（独自算出の注目度）: 7.332311991395427
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hate speech is harmful content that directly attacks or promotes hatred against members of groups or individuals based on actual or perceived aspects of identity, such as racism, religion, or sexual orientation. This can affect social life on social media platforms as hateful content shared through social media can harm both individuals and communities. As the prevalence of hate speech increases online, the demand for automated detection as an NLP task is increasing. In this work, the proposed method is using transformer-based model to detect hate speech in social media, like twitter, Facebook, WhatsApp, Instagram, etc. The proposed model is independent of languages and has been tested on Italian, English, German, Bengali. The Gold standard datasets were collected from renowned researcher Zeerak Talat, Sara Tonelli, Melanie Siegel, and Rezaul Karim. The success rate of the proposed model for hate speech detection is higher than the existing baseline and state-of-the-art models with accuracy in Bengali dataset is 89%, in English: 91%, in German dataset 91% and in Italian dataset it is 77%. The proposed algorithm shows substantial improvement to the benchmark method.
Abstract（参考訳）: ヘイトスピーチ(英: Hate speech)は、人種差別、宗教、性的指向など、実際のまたは認識されたアイデンティティの側面に基づいて、グループや個人に対して直接攻撃または憎悪を促進する有害な内容である。ソーシャルメディアを通じて共有されるヘイトフルコンテンツは、個人とコミュニティの両方に害を与える可能性がある。ネットでのヘイトスピーチの普及に伴い、nlpタスクとしての自動検出の需要が増加している。本研究では,twitter, facebook, whatsapp, instagramなどのソーシャルメディアにおけるヘイトスピーチを,トランスフォーマーモデルを用いて検出する手法を提案する。提案されたモデルは言語から独立しており、イタリア語、英語、ドイツ語、ベンガルでテストされている。金の標準データセットは、著名な研究者Zeerak Talat、Sara Tonelli、Melanie Siegel、Rezaul Karimから収集された。提案するヘイトスピーチ検出モデルの成功率は,既存のベースラインモデルよりも高く,bengaliデータセットでは精度が89%,ドイツ語では91%,ドイツ語データセットでは91%,イタリア語データセットでは77%である。提案アルゴリズムはベンチマーク法を大幅に改善したことを示す。

関連論文リスト

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement [37.96170496349076]
本稿では,ヘイトスピーチ検出のためのデータ拡張と特徴強調手法について述べる。 SMOTE, 逆クラス比率による重み付き損失, POSタグ付け, およびテキストデータ拡張がモデル性能に与える影響について検討した。
論文参考訳（メタデータ） (2026-03-05T00:46:11Z)
A Federated Approach to Few-Shot Hate Speech Detection for Marginalized Communities [43.37824420609252]
ネット上でのヘイトスピーチは、辺境化コミュニティにとって未検討の課題だ。本稿では,オンラインヘイトスピーチから身を守るためのプライバシ保護ツールを,疎外化コミュニティに提供することを目的とする。
論文参考訳（メタデータ） (2024-12-06T11:00:05Z)
A Survey on Automatic Online Hate Speech Detection in Low-Resource Languages [0.5825410941577593]
ソーシャルメディアとインターネットのアクセシビリティはヘイトスピーチの普及を促している。本稿は、世界中の低リソース言語におけるヘイトスピーチ検出に関する詳細な調査である。
論文参考訳（メタデータ） (2024-11-28T09:42:53Z)
Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文参考訳（メタデータ） (2024-04-30T04:16:55Z)
In Generative AI we Trust: Can Chatbots Effectively Verify Political Information? [39.58317527488534]
本稿では,2つの大規模言語モデル(LLM)ベースのチャットボットであるChatGPTとBing Chatの比較分析を行い,政治的情報の正確性を検出する。 AI監査手法を使用して、新型コロナウイルス、ロシアによるウクライナに対する攻撃、ホロコースト、気候変動、LGBTQ+関連の議論の5つのトピックについて、チャットボットが真、偽、および境界線をどう評価するかを調査する。その結果, ベースライン精度評価タスクにおけるChatGPTの性能が向上し, 72%のケースが事前学習なしで言語平均で正しく評価された。
論文参考訳（メタデータ） (2023-12-20T15:17:03Z)
Hate Speech and Offensive Content Detection in Indo-Aryan Languages: A Battle of LSTM and Transformers [0.0]
我々はベンガル語、アサメセ語、ボド語、シンハラ語、グジャラート語の5つの異なる言語でヘイトスピーチの分類を比較した。 Bert Base Multilingual Casedは、ベンガル語で0.67027得点、アサメ語で0.70525得点を達成した。シンハラではXLM-RはF1スコア0.83493で際立っているが、グジャラティではF1スコア0.76601で照らされたカスタムLSTMベースのモデルである。
論文参考訳（メタデータ） (2023-12-09T20:24:00Z)
CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文参考訳（メタデータ） (2023-03-02T17:30:43Z)
Countering Malicious Content Moderation Evasion in Online Social Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文参考訳（メタデータ） (2022-12-27T16:08:49Z)
Data-Efficient Strategies for Expanding Hate Speech Detection into Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文参考訳（メタデータ） (2022-10-20T15:49:00Z)
Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文参考訳（メタデータ） (2022-01-15T20:48:14Z)
Leveraging Transformers for Hate Speech Detection in Conversational Code-Mixed Tweets [36.29939722039909]
本稿では,HASOC 2021サブタスク2のためのMIDAS-IIITDチームによって提案されたシステムについて述べる。これは、Hindi- Englishのコードミキシングされた会話からヘイトスピーチを検出することに焦点を当てた最初の共有タスクの1つである。 Indic-BERT,XLM-RoBERTa,Multilingual BERTのハード投票アンサンブルがマクロF1スコア0.7253を達成した。
論文参考訳（メタデータ） (2021-12-18T19:27:33Z)
Detection of Hate Speech using BERT and Hate Speech Word Embedding with Deep Model [0.5801044612920815]
本稿では,双方向LSTMに基づくディープモデルにドメイン固有の単語を埋め込み,ヘイトスピーチを自動的に検出・分類する可能性について検討する。実験の結果、Bidirectional LSTMベースのディープモデルによるドメイン固有単語の埋め込みは93%のf1スコアを獲得し、BERTは96%のf1スコアを達成した。
論文参考訳（メタデータ） (2021-11-02T11:42:54Z)
Role of Artificial Intelligence in Detection of Hateful Speech for Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文参考訳（メタデータ） (2021-05-11T10:02:28Z)
Hate Speech detection in the Bengali language: A dataset and its baseline evaluation [0.8793721044482612]
本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。コメントはすべてYouTubeとFacebookのコメントセクションから収集され、7つのカテゴリに分類される。合計50人の注釈家が各コメントに3回注釈を付け、多数決が最終注釈として採決された。
論文参考訳（メタデータ） (2020-12-17T15:53:54Z)
Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文参考訳（メタデータ） (2020-05-25T21:58:09Z)
Demoting Racial Bias in Hate Speech Detection [39.376886409461775]
現在のヘイトスピーチデータセットには、アノテーターの毒性に対する認識とアフリカ系アメリカ人英語(AAE)の信号との間に相関がある。本稿では,このバイアスを軽減するために,敵対的訓練を用いて,有害な文章の検出を学習するヘイトスピーチ分類器を導入する。ヘイトスピーチデータセットとAEデータセットの実験結果から,本手法はヘイトスピーチ分類の性能を最小限に抑えつつ,AAEテキストの偽陽性率を大幅に低減できる可能性が示唆された。
論文参考訳（メタデータ） (2020-05-25T17:43:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。