論文の概要: A Large-scale Dataset for Hate Speech Detection on Vietnamese Social
Media Texts
- arxiv url: http://arxiv.org/abs/2103.11528v1
- Date: Mon, 22 Mar 2021 00:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:40:39.436231
- Title: A Large-scale Dataset for Hate Speech Detection on Vietnamese Social
Media Texts
- Title(参考訳): ベトナムのソーシャルメディアテキストにおけるヘイトスピーチ検出のための大規模データセット
- Authors: Son T. Luu, Kiet Van Nguyen and Ngan Luu-Thuy Nguyen
- Abstract要約: ViHSDは、ソーシャルネットワーク上でヘイトスピーチを自動的に検出する人間アノテーション付きデータセットである。
このデータセットには30,000以上のコメントが含まれており、データセットの各コメントにはCLEAN、OFENSIVE、HATEの3つのラベルの1つが含まれている。
- 参考スコア(独自算出の注目度): 0.32228025627337864
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, Vietnam witnesses the mass development of social network
users on different social platforms such as Facebook, Youtube, Instagram, and
Tiktok. On social medias, hate speech has become a critical problem for social
network users. To solve this problem, we introduce the ViHSD - a
human-annotated dataset for automatically detecting hate speech on the social
network. This dataset contains over 30,000 comments, each comment in the
dataset has one of three labels: CLEAN, OFFENSIVE, or HATE. Besides, we
introduce the data creation process for annotating and evaluating the quality
of the dataset. Finally, we evaluated the dataset by deep learning models and
transformer models.
- Abstract(参考訳): 近年、ベトナムはFacebook、Youtube、Instagram、Tiktokなど、さまざまなソーシャルプラットフォーム上でのソーシャルネットワークユーザーの大量開発を目撃している。
ソーシャルメディアでは、ヘイトスピーチがソーシャルネットワークユーザーにとって重要な問題となっている。
この問題を解決するために、ソーシャルネットワーク上でヘイトスピーチを自動的に検出する人間のアノテーション付きデータセットViHSDを導入する。
このデータセットには30,000以上のコメントが含まれており、データセットの各コメントにはCLEAN、OFENSIVE、HATEの3つのラベルの1つが含まれている。
さらに,データセットの品質をアノテートし,評価するためのデータ生成プロセスについても紹介する。
最後に,ディープラーニングモデルとトランスフォーマーモデルによるデータセットの評価を行った。
関連論文リスト
- Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。
データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。
データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文 参考訳(メタデータ) (2024-04-30T04:16:55Z) - OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Learning From Free-Text Human Feedback -- Collect New Datasets Or Extend
Existing Ones? [57.16050211534735]
一般的な対話データセットにおける自由文フィードバックのタイプと頻度について検討する。
この結果から, エラータイプ, ユーザ応答タイプ, それらの関係性など, 調査したデータセットの構成に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-10-24T12:01:11Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - BERT-based Ensemble Approaches for Hate Speech Detection [1.8734449181723825]
本稿では,複数のディープモデルを用いたソーシャルメディアにおけるヘイトスピーチの分類に焦点を当てた。
ソフト投票,最大値,ハード投票,積み重ねなど,いくつかのアンサンブル手法を用いて評価を行った。
実験の結果、特にアンサンブルモデルでは、スタックリングによってDavidsonデータセットでは97%、DHOデータセットでは77%のスコアが得られた。
論文 参考訳(メタデータ) (2022-09-14T09:08:24Z) - BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate
Speech in Different Social Contexts [1.5483942282713241]
本稿では,Hate Speechをソーシャルコンテキストに含めた大規模ラベル付きデータセットを提案する。
データセットには、オンラインソーシャルネットワークサイトからクロールされた50,200件以上の攻撃的なコメントが含まれている。
実験の結果,147万コメントのみを用いてトレーニングした単語の埋め込みが一貫してHS検出のモデリングを改善することがわかった。
論文 参考訳(メタデータ) (2022-06-01T10:10:15Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z) - Empirical Study of Text Augmentation on Social Media Text in Vietnamese [3.0938904602244355]
テキスト分類問題では、データセット内のラベルの不均衡がテキスト分類モデルの性能に影響を及ぼす。
データセットのクラス間の不均衡問題を解決するために,データ拡張手法を適用した。
増量の結果、両コーパスのF1マクロスコアは約1.5%増加する。
論文 参考訳(メタデータ) (2020-09-25T16:18:52Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。