論文の概要: Antisemitic Messages? A Guide to High-Quality Annotation and a Labeled
Dataset of Tweets
- arxiv url: http://arxiv.org/abs/2304.14599v1
- Date: Fri, 28 Apr 2023 02:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 15:23:59.683866
- Title: Antisemitic Messages? A Guide to High-Quality Annotation and a Labeled
Dataset of Tweets
- Title(参考訳): 反ユダヤ的メッセージ?
高品質なアノテーションとツイートのラベル付きデータセットのガイド
- Authors: Gunther Jikeli, Sameer Karali, Daniel Miehling, and Katharina Soemer
- Abstract要約: 我々は、6,941ツイートのラベル付きデータセットを作成し、ユダヤ人、イスラエル、反ユダヤ主義に関する会話に共通する幅広いトピックをカバーしています。
このデータセットには、IHRA(International Holocaust Remembrance Alliance)による反ユダヤ主義の定義に基づく1,250のツイート(18%)が含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the major challenges in automatic hate speech detection is the lack of
datasets that cover a wide range of biased and unbiased messages and that are
consistently labeled. We propose a labeling procedure that addresses some of
the common weaknesses of labeled datasets. We focus on antisemitic speech on
Twitter and create a labeled dataset of 6,941 tweets that cover a wide range of
topics common in conversations about Jews, Israel, and antisemitism between
January 2019 and December 2021 by drawing from representative samples with
relevant keywords. Our annotation process aims to strictly apply a commonly
used definition of antisemitism by forcing annotators to specify which part of
the definition applies, and by giving them the option to personally disagree
with the definition on a case-by-case basis. Labeling tweets that call out
antisemitism, report antisemitism, or are otherwise related to antisemitism
(such as the Holocaust) but are not actually antisemitic can help reduce false
positives in automated detection. The dataset includes 1,250 tweets (18%) that
are antisemitic according to the International Holocaust Remembrance Alliance
(IHRA) definition of antisemitism. It is important to note, however, that the
dataset is not comprehensive. Many topics are still not covered, and it only
includes tweets collected from Twitter between January 2019 and December 2021.
Additionally, the dataset only includes tweets that were written in English.
Despite these limitations, we hope that this is a meaningful contribution to
improving the automated detection of antisemitic speech.
- Abstract(参考訳): 自動ヘイトスピーチ検出における大きな課題の1つは、バイアスやバイアスのない幅広いメッセージをカバーし、一貫してラベル付けされるデータセットの欠如である。
本稿では,ラベル付きデータセットの共通弱点に対処するラベル付け手法を提案する。
われわれは、2019年1月から2021年12月までのユダヤ人、イスラエル、および反ユダヤ主義に関する会話に共通する幅広いトピックを、関連するキーワードで代表的サンプルから抽出し、ラベル付き6,941ツイートのデータセットを作成する。
アノテーションプロセスは,アノテーションのどの部分が適用されるのかをアノテーションに指定させ,ケースバイケースで個人的にその定義に異議を唱えるオプションを与えることによって,一般的に使用される反ユダヤ主義の定義を厳密に適用することを目的としています。
反ユダヤ主義を呼びかけたり、反ユダヤ主義を報告したり、あるいはホロコーストのような反ユダヤ主義と関連があるが、実際には反ユダヤ主義ではないツイートは、自動検出における偽陽性を減らすのに役立つ。
このデータセットには、IHRA(International Holocaust Remembrance Alliance)による反ユダヤ主義の定義に基づく1,250のツイート(18%)が含まれている。
ただし、データセットが包括的ではない点には注意が必要だ。
多くのトピックはまだカバーされておらず、2019年1月から2021年12月までtwitterから収集されたツイートだけを含んでいる。
さらにデータセットには、英語で書かれたツイートのみが含まれている。
これらの制限にもかかわらず、これは反ユダヤ的音声の自動検出の改善に有意義な貢献を期待する。
関連論文リスト
- Monitoring the evolution of antisemitic discourse on extremist social media using BERT [3.3037858066178662]
ソーシャルメディアに対する人種差別と不寛容は、悪質なオンライン環境に寄与する。
オンライン議論において、反ユダヤ主義のテーマとその関連する用語を追跡することは、参加者の感情を監視するのに役立つだろう。
論文 参考訳(メタデータ) (2024-02-06T20:34:49Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - How toxic is antisemitism? Potentials and limitations of automated
toxicity scoring for antisemitic online content [0.0]
Perspective APIはGoogleとJigsawによるテキスト毒性評価サービスである。
我々は、有害な反ユダヤ主義のテキストがいかに評価され、また、有害性のスコアが、異なるアンチ・セミズムのサブフォームに関してどのように異なるかを示す。
基本レベルでは、パースペクティブAPIは、反ユダヤ主義的な内容が有毒であると認識するが、非明示的な反ユダヤ主義の形式に関して重大な弱点を示す。
論文 参考訳(メタデータ) (2023-10-05T15:23:04Z) - Russo-Ukrainian War: Prediction and explanation of Twitter suspension [47.61306219245444]
本研究は、Twitterのサスペンション機構と、これにつながる可能性のあるユーザアカウントの共有コンテンツと機能の分析に焦点を当てる。
Twitter APIを使って、980万人のユーザーから生まれた107.7万のツイートを含むデータセットを入手しました。
この結果から、Bitcoin詐欺、スパム、広告キャンペーンに対するロシアとウクライナの紛争に関するトレンドを生かした詐欺キャンペーンが明らかになった。
論文 参考訳(メタデータ) (2023-06-06T08:41:02Z) - Codes, Patterns and Shapes of Contemporary Online Antisemitism and
Conspiracy Narratives -- an Annotation Guide and Labeled German-Language
Dataset in the Context of COVID-19 [0.0]
インターネット上の反ユダヤ的・陰謀論のコンテンツは、データ駆動型アルゴリズムアプローチを不可欠にしている。
我々は、新型コロナウイルスのパンデミックの文脈において、オンラインコンテンツにおける反ユダヤ的・陰謀的理論のためのアノテーションガイドを開発する。
我々は、コード化やホロコースト後のアンチ・セミズムのような特定の形のアンチ・セミズムを含む作業定義を提供する。
論文 参考訳(メタデータ) (2022-10-13T10:32:39Z) - Predicting Hate Intensity of Twitter Conversation Threads [26.190359413890537]
DRAGNET++は、将来、ツイートが返信チェーンを通じてもたらす憎悪の強さを予測することを目的としている。
ツイートスレッドのセマンティックな構造と伝播構造を利用して、続く各ツイートにおけるヘイトインテンシティの低下につながるコンテキスト情報を最大化する。
DRAGNET++は最先端のすべてのベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-06-16T18:51:36Z) - Twitter Dataset on the Russo-Ukrainian War [68.713984286035]
Twitter APIから現在進行中のデータセットの取得を開始しています。
データセットは770万人のユーザーを起源とする5730万ツイートに達している。
我々は、最初のボリュームと感情分析を適用し、データセットはトピック分析、ヘイトスピーチ、プロパガンダ認識、ボットネットのような潜在的な悪意のあるエンティティを示すためにさらに探索的な調査に使用することができる。
論文 参考訳(メタデータ) (2022-04-07T12:33:06Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - "Subverting the Jewtocracy": Online Antisemitism Detection Using
Multimodal Deep Learning [23.048101866010445]
オンラインの反ユダヤ主義の自動マルチモーダル検出の方向の最初の仕事を提示します。
TwitterとGabからの3,102と3,509のソーシャルメディア投稿で2つのデータセットをラベル付けしました。
本論文では, ポストからのテキストと画像を用いて, アンチセミズムコンテンツとその特定のアンチセミズムカテゴリの存在を検出するマルチモーダル深層学習システムを提案する。
論文 参考訳(メタデータ) (2021-04-13T05:22:55Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。