Fugu-MT 論文翻訳(概要): A Large-scale Dataset for Hate Speech Detection on Vietnamese Social Media Texts

論文の概要: A Large-scale Dataset for Hate Speech Detection on Vietnamese Social Media Texts

arxiv url: http://arxiv.org/abs/2103.11528v1
Date: Mon, 22 Mar 2021 00:55:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-23 14:40:39.436231
Title: A Large-scale Dataset for Hate Speech Detection on Vietnamese Social Media Texts
Title（参考訳）: ベトナムのソーシャルメディアテキストにおけるヘイトスピーチ検出のための大規模データセット
Authors: Son T. Luu, Kiet Van Nguyen and Ngan Luu-Thuy Nguyen
Abstract要約: ViHSDは、ソーシャルネットワーク上でヘイトスピーチを自動的に検出する人間アノテーション付きデータセットである。このデータセットには30,000以上のコメントが含まれており、データセットの各コメントにはCLEAN、OFENSIVE、HATEの3つのラベルの1つが含まれている。
参考スコア（独自算出の注目度）: 0.32228025627337864
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In recent years, Vietnam witnesses the mass development of social network users on different social platforms such as Facebook, Youtube, Instagram, and Tiktok. On social medias, hate speech has become a critical problem for social network users. To solve this problem, we introduce the ViHSD - a human-annotated dataset for automatically detecting hate speech on the social network. This dataset contains over 30,000 comments, each comment in the dataset has one of three labels: CLEAN, OFFENSIVE, or HATE. Besides, we introduce the data creation process for annotating and evaluating the quality of the dataset. Finally, we evaluated the dataset by deep learning models and transformer models.
Abstract（参考訳）: 近年、ベトナムはFacebook、Youtube、Instagram、Tiktokなど、さまざまなソーシャルプラットフォーム上でのソーシャルネットワークユーザーの大量開発を目撃している。ソーシャルメディアでは、ヘイトスピーチがソーシャルネットワークユーザーにとって重要な問題となっている。この問題を解決するために、ソーシャルネットワーク上でヘイトスピーチを自動的に検出する人間のアノテーション付きデータセットViHSDを導入する。このデータセットには30,000以上のコメントが含まれており、データセットの各コメントにはCLEAN、OFENSIVE、HATEの3つのラベルの1つが含まれている。さらに,データセットの品質をアノテートし,評価するためのデータ生成プロセスについても紹介する。最後に,ディープラーニングモデルとトランスフォーマーモデルによるデータセットの評価を行った。

関連論文リスト

Exa-PSD: a new Persian sentiment analysis dataset on Twitter [0.0]
ペルシャ語ツイートから収集した感情分析ペルシア語データセットについて紹介する。このデータセットには12,000のツイートが含まれており、5つのネイティブペルシャのタグが注釈付けされている。評価は 79.87 Macro Fスコアに達し, 感情分析システムにおいて, モデルとデータに十分な価値が得られた。
論文参考訳（メタデータ） (2026-02-24T13:28:23Z)
RedNote-Vibe: A Dataset for Capturing Temporal Dynamics of AI-Generated Text in Social Media [48.63633320837672]
ソーシャルメディアAIGT分析のための最初の縦長(5年)データセットであるRedNote-Vibeを紹介する。このデータセットはXiaohongshuプラットフォームから提供されており、LLM以前の期間から2025年7月までのユーザエンゲージメントメトリクスとタイムスタンプが含まれている。ソーシャルメディアの文脈でAIGTを検出するために,解釈可能なアプローチである心理言語AIGT検出フレームワーク(PLAD)を提案する。
論文参考訳（メタデータ） (2025-09-26T08:36:45Z)
Multi-Platform Aggregated Dataset of Online Communities (MADOC) [64.45797970830233]
MADOCはBluesky、Koo、Reddit、Voat(2012-2024)のデータを集め、標準化している。このデータセットは、標準化されたインタラクション記録と感情分析を通じて、プラットフォーム間の有害な振る舞いの進化の比較研究を可能にする。
論文参考訳（メタデータ） (2025-01-22T14:02:11Z)
Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文参考訳（メタデータ） (2024-04-30T04:16:55Z)
OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文参考訳（メタデータ） (2024-04-08T14:08:56Z)
Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文参考訳（メタデータ） (2023-11-06T19:00:05Z)
Learning From Free-Text Human Feedback -- Collect New Datasets Or Extend Existing Ones? [57.16050211534735]
一般的な対話データセットにおける自由文フィードバックのタイプと頻度について検討する。この結果から, エラータイプ, ユーザ応答タイプ, それらの関係性など, 調査したデータセットの構成に関する新たな知見が得られた。
論文参考訳（メタデータ） (2023-10-24T12:01:11Z)
CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文参考訳（メタデータ） (2023-03-02T17:30:43Z)
BERT-based Ensemble Approaches for Hate Speech Detection [1.8734449181723825]
本稿では,複数のディープモデルを用いたソーシャルメディアにおけるヘイトスピーチの分類に焦点を当てた。ソフト投票,最大値,ハード投票,積み重ねなど,いくつかのアンサンブル手法を用いて評価を行った。実験の結果、特にアンサンブルモデルでは、スタックリングによってDavidsonデータセットでは97%、DHOデータセットでは77%のスコアが得られた。
論文参考訳（メタデータ） (2022-09-14T09:08:24Z)
BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate Speech in Different Social Contexts [1.5483942282713241]
本稿では,Hate Speechをソーシャルコンテキストに含めた大規模ラベル付きデータセットを提案する。データセットには、オンラインソーシャルネットワークサイトからクロールされた50,200件以上の攻撃的なコメントが含まれている。実験の結果,147万コメントのみを用いてトレーニングした単語の埋め込みが一貫してHS検出のモデリングを改善することがわかった。
論文参考訳（メタデータ） (2022-06-01T10:10:15Z)
Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文参考訳（メタデータ） (2022-01-15T20:48:14Z)
Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。 Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文参考訳（メタデータ） (2020-09-28T12:49:07Z)
Empirical Study of Text Augmentation on Social Media Text in Vietnamese [3.0938904602244355]
テキスト分類問題では、データセット内のラベルの不均衡がテキスト分類モデルの性能に影響を及ぼす。データセットのクラス間の不均衡問題を解決するために,データ拡張手法を適用した。増量の結果、両コーパスのF1マクロスコアは約1.5%増加する。
論文参考訳（メタデータ） (2020-09-25T16:18:52Z)
Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文参考訳（メタデータ） (2020-08-02T17:23:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。