論文の概要: BERT-based Ensemble Approaches for Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2209.06505v2
- Date: Thu, 15 Sep 2022 12:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 11:48:36.291523
- Title: BERT-based Ensemble Approaches for Hate Speech Detection
- Title(参考訳): BERTに基づくヘイト音声検出のためのアンサンブルアプローチ
- Authors: Khouloud Mnassri, Praboda Rajapaksha, Reza Farahbakhsh, Noel Crespi
- Abstract要約: 本稿では,複数のディープモデルを用いたソーシャルメディアにおけるヘイトスピーチの分類に焦点を当てた。
ソフト投票,最大値,ハード投票,積み重ねなど,いくつかのアンサンブル手法を用いて評価を行った。
実験の結果、特にアンサンブルモデルでは、スタックリングによってDavidsonデータセットでは97%、DHOデータセットでは77%のスコアが得られた。
- 参考スコア(独自算出の注目度): 1.8734449181723825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the freedom of communication provided in online social media, hate
speech has increasingly generated. This leads to cyber conflicts affecting
social life at the individual and national levels. As a result, hateful content
classification is becoming increasingly demanded for filtering hate content
before being sent to the social networks. This paper focuses on classifying
hate speech in social media using multiple deep models that are implemented by
integrating recent transformer-based language models such as BERT, and neural
networks. To improve the classification performances, we evaluated with several
ensemble techniques, including soft voting, maximum value, hard voting and
stacking. We used three publicly available Twitter datasets (Davidson,
HatEval2019, OLID) that are generated to identify offensive languages. We fused
all these datasets to generate a single dataset (DHO dataset), which is more
balanced across different labels, to perform multi-label classification. Our
experiments have been held on Davidson dataset and the DHO corpora. The later
gave the best overall results, especially F1 macro score, even it required more
resources (time execution and memory). The experiments have shown good results
especially the ensemble models, where stacking gave F1 score of 97% on Davidson
dataset and aggregating ensembles 77% on the DHO dataset.
- Abstract(参考訳): オンラインソーシャルメディアにおけるコミュニケーションの自由により、ヘイトスピーチはますます発生しつつある。
これは個人や国家レベルでの社会生活に影響を与えるサイバー紛争につながる。
その結果、ヘイトフルコンテンツ分類は、ソーシャルネットワークに送られる前にヘイトコンテンツをフィルタリングする必要性が高まっている。
本稿では,ソーシャルメディアにおけるヘイトスピーチの分類について,bertやニューラルネットワークといった最近のトランスフォーマーベースの言語モデルを統合した,複数の深層モデルを用いて検討する。
分類性能を向上させるため,ソフト投票,最大値,ハード投票,積み重ねなど,いくつかのアンサンブル手法を用いた評価を行った。
私たちは、攻撃的な言語を特定するために生成される3つの公開Twitterデータセット(Davidson、HatEval2019、OLID)を使用しました。
これらのデータセットをすべて融合して、異なるラベル間でよりバランスの取れた単一のデータセット(dhoデータセット)を生成し、複数のラベルの分類を行います。
私たちの実験はdavidsonデータセットとdho corporaで行われました。
結果として、特にF1マクロスコアは、より多くのリソース(実行時間とメモリ)を必要とした。
実験の結果、特にアンサンブルモデルでは、スタックリングによってDavidsonデータセットでは97%、DHOデータセットでは77%のスコアが得られた。
関連論文リスト
- Hate Speech Detection Using Cross-Platform Social Media Data In English and German Language [6.200058263544999]
本研究は,YouTubeコメントにおけるバイリンガルヘイトスピーチの検出に焦点を当てた。
コンテントの類似性、定義の類似性、一般的なヘイトワードなど、データセットがパフォーマンスに与える影響を測定する要素が含まれています。
最高のパフォーマンスは、YouTubeコメント、Twitter、Gabのデータセットと、英語とドイツ語のYouTubeコメントのためのF1スコアの0.74と0.68を組み合わせることで得られる。
論文 参考訳(メタデータ) (2024-10-02T10:22:53Z) - OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Revisiting Hate Speech Benchmarks: From Data Curation to System
Deployment [26.504056750529124]
GOTHateは、Twitterからヘイトスピーチを検出するために約51万の投稿をクラウドソースした大規模クラウドソースデータセットである。
最近の10のベースラインでベンチマークを行い、内因性信号の追加がヘイトスピーチ検出タスクをどのように強化するかを検討する。
我々のHEN-mBERTは多言語混合実験モデルであり、潜在内因性信号で言語的部分空間を豊かにする。
論文 参考訳(メタデータ) (2023-06-01T19:36:52Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate
Speech in Different Social Contexts [1.5483942282713241]
本稿では,Hate Speechをソーシャルコンテキストに含めた大規模ラベル付きデータセットを提案する。
データセットには、オンラインソーシャルネットワークサイトからクロールされた50,200件以上の攻撃的なコメントが含まれている。
実験の結果,147万コメントのみを用いてトレーニングした単語の埋め込みが一貫してHS検出のモデリングを改善することがわかった。
論文 参考訳(メタデータ) (2022-06-01T10:10:15Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Leveraging Multi-domain, Heterogeneous Data using Deep Multitask
Learning for Hate Speech Detection [21.410160004193916]
畳み込みニューラルネットワークに基づくマルチタスク学習モデル(MTL)フットノートコードを提案し,複数のソースからの情報を活用する。
3つのベンチマークデータセットで実施した実証分析は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-03-23T09:31:01Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Contrastive Examples for Addressing the Tyranny of the Majority [83.93825214500131]
我々は,グループメンバーシップを介在する,オリジナルのデータセットと新たなデータポイントからなるバランスの取れたトレーニングデータセットを作成することを提案する。
コントラッシブ・サンプル(英語版)と呼ばれるこれらのデータポイントを学習するための強力なツールとして、現在の生成的敵ネットワークが重要であることを示す。
論文 参考訳(メタデータ) (2020-04-14T14:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。