論文の概要: Annotating Hate and Offenses on Social Media
- arxiv url: http://arxiv.org/abs/2103.14972v1
- Date: Sat, 27 Mar 2021 19:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 10:49:09.131367
- Title: Annotating Hate and Offenses on Social Media
- Title(参考訳): ソーシャルメディアにおける憎悪と悪感の注釈
- Authors: Francielle Alves Vargas, Isabelle Carvalho, Fabiana Rodrigues de
G\'oes, Fabr\'icio Benevenuto de Souza, Thiago Alexandre Salgueiro Pardo
- Abstract要約: コーパスはInstagramの政治パーソナリティページから収集され、手動で注釈付けされた。
7000件の文書は、二項分類(攻撃的対非攻撃的コメント)、犯罪のレベル(攻撃的、攻撃的、わずかに攻撃的メッセージ)、差別的内容のターゲットに関する識別という3つの異なる層に注釈付けされた。
各コメントは3つの異なるアノテーションによってアノテートされ、高いアノテータ間合意を達成した。
- 参考スコア(独自算出の注目度): 1.1744028458220426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes a corpus annotation process to support the
identification of hate speech and offensive language in social media.The corpus
was collected from Instagram pages of political personalities and manually
annotated, being composed by 7,000 documents annotated according to three
different layers: a binary classification (offensive versus non-offensive
comments), the level of the offense (highly offensive, moderately offensive and
slightly offensive messages), and the identification regarding the target of
the discriminatory content (xenophobia, racism, homophobia, sexism, religion
intolerance, partyism, apology to the dictatorship, antisemitism and fat
phobia). Each comment was annotated by three different annotators, which
achieved high inter-annotator agreement.
- Abstract(参考訳): This paper describes a corpus annotation process to support the identification of hate speech and offensive language in social media.The corpus was collected from Instagram pages of political personalities and manually annotated, being composed by 7,000 documents annotated according to three different layers: a binary classification (offensive versus non-offensive comments), the level of the offense (highly offensive, moderately offensive and slightly offensive messages), and the identification regarding the target of the discriminatory content (xenophobia, racism, homophobia, sexism, religion intolerance, partyism, apology to the dictatorship, antisemitism and fat phobia).
各コメントは3つの異なるアノテーションによって注釈付けされ、高いアノテーション間の合意が得られた。
関連論文リスト
- ProvocationProbe: Instigating Hate Speech Dataset from Twitter [0.39052860539161904]
textitProvocationProbeは、ヘイトスピーチを一般的なヘイトスピーチと区別するためのデータセットである。
本研究では、Twitterから約2万件のツイートを収集し、全世界で9件の論争を巻き起こした。
論文 参考訳(メタデータ) (2024-10-25T16:57:59Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - Detecting Abusive Albanian [5.092028049119383]
scShajは、さまざまなソーシャルメディアプラットフォーム上のユーザーテキストコンテンツから構築されたヘイトスピーチと攻撃的なスピーチのための注釈付きデータセットである。
データセットは3つの異なる分類モデルを用いてテストされ、最も良いものは攻撃言語を識別するためのF1スコア0.77を達成することである。
論文 参考訳(メタデータ) (2021-07-28T18:47:32Z) - Identifying Offensive Expressions of Opinion in Context [0.0]
文脈における意見や感情を識別する主観的情報抽出システムは依然として課題である。
感情に基づくNLPタスクでは、文脈における全ての攻撃的または憎悪的な意見よりも、情報抽出のリソースが少ない。
この論文は、明示的で暗黙的に攻撃的で、意見の表現を誓う新しいクロス言語的および文脈的攻撃的語彙を提供する。
論文 参考訳(メタデータ) (2021-04-25T18:35:39Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Linguistic Taboos and Euphemisms in Nepali [1.3535770763481905]
ネパールにおける攻撃的言語に関する詳細なコーパスに基づく研究について述べる。
我々は、政治、宗教、人種、性別を含む18以上の異なる言語犯罪を識別し、記述する。
さらに,現代話者に人気がある1000以上の攻撃語とタブー語を手作業で構築したデータセットについても紹介する。
論文 参考訳(メタデータ) (2020-07-27T18:25:01Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z) - A Framework for the Computational Linguistic Analysis of Dehumanization [52.735780962665814]
我々は1986年から2015年にかけてニューヨーク・タイムズでLGBTQの人々に関する議論を分析した。
LGBTQの人々の人為的な記述は、時間とともにますます増えています。
大規模に非人間化言語を分析する能力は、メディアバイアスを自動的に検出し、理解するだけでなく、オンラインで乱用する言語にも影響を及ぼす。
論文 参考訳(メタデータ) (2020-03-06T03:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。