論文の概要: Placing M-Phasis on the Plurality of Hate: A Feature-Based Corpus of
Hate Online
- arxiv url: http://arxiv.org/abs/2204.13400v1
- Date: Thu, 28 Apr 2022 10:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 13:22:53.351021
- Title: Placing M-Phasis on the Plurality of Hate: A Feature-Based Corpus of
Hate Online
- Title(参考訳): M-Phasis on the Plurality of Hate: a Feature-based Corpus of Hate Online
- Authors: Dana Ruiter, Liane Reiners, Ashwin Geet D'Sa, Thomas Kleinbauer,
Dominique Fohr, Irina Illina, Dietrich Klakow, Christian Schemer, Angeliki
Monnier
- Abstract要約: 我々は、移民関連のニュース記事から収集した9万のドイツ語とフランス語のユーザーコメントのコーパスであるM-Phasis corpusを提示する。
これは "hate"-"neutral" の二分法を超越し、代わりに23の特徴で注釈付けされ、様々な種類の音声の記述子となる。
- 参考スコア(独自算出の注目度): 18.973398187389083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even though hate speech (HS) online has been an important object of research
in the last decade, most HS-related corpora over-simplify the phenomenon of
hate by attempting to label user comments as "hate" or "neutral". This ignores
the complex and subjective nature of HS, which limits the real-life
applicability of classifiers trained on these corpora. In this study, we
present the M-Phasis corpus, a corpus of ~9k German and French user comments
collected from migration-related news articles. It goes beyond the
"hate"-"neutral" dichotomy and is instead annotated with 23 features, which in
combination become descriptors of various types of speech, ranging from
critical comments to implicit and explicit expressions of hate. The annotations
are performed by 4 native speakers per language and achieve high (0.77 <= k <=
1) inter-annotator agreements. Besides describing the corpus creation and
presenting insights from a content, error and domain analysis, we explore its
data characteristics by training several classification baselines.
- Abstract(参考訳): ネット上でのヘイトスピーチ(HS)は、過去10年間で重要な研究対象となっているが、ほとんどのHS関連コーパスは、ユーザーのコメントを「嫌悪」「中立」とラベル付けしようとすることでヘイト現象を単純化している。
これはHSの複雑で主観的な性質を無視し、これらのコーパスで訓練された分類器の実際の適用性を制限する。
本研究では,移動関連ニュース記事から収集したドイツ語とフランス語のユーザコメントのコーパスであるM-Phasis corpusについて述べる。
それは"hate"-"neutral"二分法を超越したもので、代わりに23の機能で注釈付けされ、批判的なコメントから暗黙的で明示的なヘイト表現まで、様々な種類の音声の記述子となる。
アノテーションは言語毎に4つのネイティブ話者によって実行され、高い (0.77 <= k <= 1) アノテーション間の合意に達する。
コーパスの作成とコンテンツ、エラー、ドメイン分析からの洞察の提示に加えて、いくつかの分類基準をトレーニングすることで、そのデータ特性について検討する。
関連論文リスト
- Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales [15.458557611029518]
ソーシャルメディアプラットフォームは、ユーザーが対人的な議論を行い、意見を述べるための重要な場である。
ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。
本稿では,現在最先端の大規模言語モデル (LLM) を用いて,入力テキストから有理形の特徴を抽出することを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:22:35Z) - HCDIR: End-to-end Hate Context Detection, and Intensity Reduction model
for online comments [2.162419921663162]
ソーシャルメディア投稿において,Hate Context Detection と Hate Intensity Reduction のための新しいエンドツーエンドモデル HCDIR を提案する。
我々は、ヘイトフルコメントを検出するために、いくつかの事前訓練された言語モデルを微調整し、最も優れたヘイトフルコメント検出モデルを確認した。
論文 参考訳(メタデータ) (2023-12-20T17:05:46Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis [44.17106903728264]
ほとんどのヘイトスピーチデータセットは、単一の言語における文化的多様性を無視している。
そこで本研究では,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。
CREHateのポストの56.2%のみが全国でコンセンサスを達成しており、ペアのラベル差が最も高いのは26%である。
論文 参考訳(メタデータ) (2023-08-31T13:14:47Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Fine-Grained Opinion Summarization with Minimal Supervision [48.43506393052212]
FineSumは、複数のドキュメントから意見を抽出することでターゲットをプロファイルすることを目的としている。
FineSumは、生のコーパスから意見語句を自動的に識別し、異なる側面と感情に分類し、各アスペクト/感覚の下に複数のきめ細かい意見クラスタを構築する。
ベンチマークの自動評価と定量的人的評価の両方が,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2021-10-17T15:16:34Z) - Latent Hatred: A Benchmark for Understanding Implicit Hate Speech [22.420275418616242]
この研究は、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージにきめ細かいラベルを付けたベンチマークコーパスを導入している。
本稿では、同時代のベースラインを用いて、暗黙のヘイトスピーチを検出し、説明するためにデータセットを体系的に分析する。
論文 参考訳(メタデータ) (2021-09-11T16:52:56Z) - What's in the Box? An Analysis of Undesirable Content in the Common
Crawl Corpus [77.34726150561087]
言語モデルの訓練に広く使用されるコロッサルwebコーパスであるcommon crawlを分析した。
ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
論文 参考訳(メタデータ) (2021-05-06T14:49:43Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Annotating for Hate Speech: The MaNeCo Corpus and Some Input from
Critical Discourse Analysis [3.3008315224941978]
本稿では,Web 2.0コメンタリーのコーパスにおいて,ヘイトスピーチのアノテーションのための新しいスキームを提案する。
地中海の移民危機やマルタのLGBTIQ+問題に関するニュースに反応した投稿の批判的な分析に動機づけられている。
本稿では,二分詞+/-ヘイト音声分類に対してパイロットテストを行い,より高いアノテータ間合意が得られる多層アノテーション方式を提案する。
論文 参考訳(メタデータ) (2020-08-14T07:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。