論文の概要: Listening to Affected Communities to Define Extreme Speech: Dataset and
Experiments
- arxiv url: http://arxiv.org/abs/2203.11764v1
- Date: Tue, 22 Mar 2022 14:24:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 18:13:09.029789
- Title: Listening to Affected Communities to Define Extreme Speech: Dataset and
Experiments
- Title(参考訳): 極端音声の定義に影響を及ぼすコミュニティへのリスニング:データセットと実験
- Authors: Antonis Maronikolakis, Axel Wisiorek, Leah Nann, Haris Jabbar, Sahana
Udupa, Hinrich Schuetze
- Abstract要約: 我々は、ブラジル、ドイツ、インド、ケニアから20,297のソーシャルメディアパスを含む新しいヘイトスピーチデータセットであるXTREMESPEECHを提示する。
重要なノベルティは、データ収集と注釈付けにおいて、影響を受けるコミュニティを直接巻き込むことです。
この包括的アプローチにより、実際に発生するオンライン音声のデータセットがより代表的になる。
- 参考スコア(独自算出の注目度): 1.1417805445492082
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Building on current work on multilingual hate speech (e.g., Ousidhoum et al.
(2019)) and hate speech reduction (e.g., Sap et al. (2020)), we present
XTREMESPEECH, a new hate speech dataset containing 20,297 social media passages
from Brazil, Germany, India and Kenya. The key novelty is that we directly
involve the affected communities in collecting and annotating the data - as
opposed to giving companies and governments control over defining and
combatting hate speech. This inclusive approach results in datasets more
representative of actually occurring online speech and is likely to facilitate
the removal of the social media content that marginalized communities view as
causing the most harm. Based on XTREMESPEECH, we establish novel tasks with
accompanying baselines, provide evidence that cross-country training is
generally not feasible due to cultural differences between countries and
perform an interpretability analysis of BERT's predictions.
- Abstract(参考訳): 複数の言語によるヘイトスピーチ(例:ousidhoum et al. (2019))とヘイトスピーチ削減(例:sap et al. (2020))に関する現在の研究に基づいて、ブラジル、ドイツ、インド、ケニアの20,297のソーシャルメディアを含む新しいヘイトスピーチデータセットであるxtremespeechを紹介する。
企業や政府がヘイトスピーチの定義や対処をコントロールできるのとは対照的だ。
この包括的アプローチにより、実際に発生するオンラインスピーチのデータセットがより代表的になり、コミュニティが最も害をもたらすとみなすソーシャルメディアコンテンツの削除を促進する可能性がある。
我々は,XTREMESPEECHに基づいて,基本ラインに付随する新たなタスクを確立し,各国の文化的差異によりクロスカントリートレーニングが一般的に実現不可能であることを示すとともに,BERTの予測の解釈可能性分析を行う。
関連論文リスト
- IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language [11.463652750122398]
IndoToxic2024はインドネシアのヘイトスピーチおよび毒性分類データセットである。
19の個人によって注釈付けされた43,692のエントリを補完するデータセットは、脆弱なグループをターゲットにしたテキストに焦点を当てている。
我々は、7つの二項分類タスクのベースラインを確立し、憎悪音声分類のために細調整されたBERTモデルを用いてマクロF1スコア0.78を達成する。
論文 参考訳(メタデータ) (2024-06-27T17:26:38Z) - Silent Signals, Loud Impact: LLMs for Word-Sense Disambiguation of Coded Dog Whistles [47.61526125774749]
犬の笛は、特定の聴衆に二次的な意味を持ち、しばしば人種的・社会経済的差別のために武器化された符号化通信の一種である。
本稿では,Large Language Models (LLMs) を用いた標準音声からの犬笛の単語センスの曖昧化手法を提案する。
我々はこの手法を利用して、フォーマルで非公式なコミュニケーションに使用される犬の口笛の16,550個の高信頼符号化されたサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2024-06-10T23:09:19Z) - Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。
データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。
データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文 参考訳(メタデータ) (2024-04-30T04:16:55Z) - TuPy-E: detecting hate speech in Brazilian Portuguese social media with
a novel dataset and comprehensive analysis of models [0.0]
TuPy-Eはヘイトスピーチ検出のためのポルトガル最大の注釈付きコーパスである。
BERTモデルのような高度な手法を用いて詳細な解析を行う。
論文 参考訳(メタデータ) (2023-12-29T17:47:00Z) - Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis [44.17106903728264]
ほとんどのヘイトスピーチデータセットは、単一の言語における文化的多様性を無視している。
そこで本研究では,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。
CREHateのポストの56.2%のみが全国でコンセンサスを達成しており、ペアのラベル差が最も高いのは26%である。
論文 参考訳(メタデータ) (2023-08-31T13:14:47Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Assessing the impact of contextual information in hate speech detection [0.48369513656026514]
我々は,Twitter上のメディアからのニュース投稿に対するユーザの反応に基づいた,文脈的ヘイトスピーチ検出のための新しいコーパスを提供する。
このコーパスはリオプラテンセ方言のスペイン語で収集され、新型コロナウイルスのパンデミックに関連するヘイトスピーチに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-02T09:04:47Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z) - Transfer Learning for Hate Speech Detection in Social Media [14.759208309842178]
本稿では、2つの独立したデータセットを協調的に活用するために転送学習手法を用いる。
我々は、構築されたヘイトスピーチ表現の解釈可能な2次元可視化ツールを構築します。
この共同表現は,限られた監督範囲の場合にのみ予測性能が向上することを示す。
論文 参考訳(メタデータ) (2019-06-10T08:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。