論文の概要: Dataset for Identification of Homophobia and Transophobia in
Multilingual YouTube Comments
- arxiv url: http://arxiv.org/abs/2109.00227v1
- Date: Wed, 1 Sep 2021 08:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 16:54:22.697971
- Title: Dataset for Identification of Homophobia and Transophobia in
Multilingual YouTube Comments
- Title(参考訳): 多言語YouTubeコメントにおけるホモフォビアとトランスフォビアの識別のためのデータセット
- Authors: Bharathi Raja Chakravarthi, Ruba Priyadharshini, Rahul Ponnusamy,
Prasanna Kumar Kumaresan, Kayalvizhi Sampath, Durairaj Thenmozhi, Sathiyaraj
Thangasamy, Rajendran Nallathambi, John Phillip McCrae
- Abstract要約: 本稿では,データセットの構築プロセス,データの質的分析,アノテーション間合意について述べる。
オンラインホモフォビアとトランスフォビアのための新しい階層型分類法と、専門家ラベル付きデータセットを提供する。
データセットは15,141の注釈付き多言語コメントからなる。
- 参考スコア(独自算出の注目度): 0.16863755729554888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increased proliferation of abusive content on social media platforms has
a negative impact on online users. The dread, dislike, discomfort, or mistrust
of lesbian, gay, transgender or bisexual persons is defined as
homophobia/transphobia. Homophobic/transphobic speech is a type of offensive
language that may be summarized as hate speech directed toward LGBT+ people,
and it has been a growing concern in recent years. Online
homophobia/transphobia is a severe societal problem that can make online
platforms poisonous and unwelcome to LGBT+ people while also attempting to
eliminate equality, diversity, and inclusion. We provide a new hierarchical
taxonomy for online homophobia and transphobia, as well as an expert-labelled
dataset that will allow homophobic/transphobic content to be automatically
identified. We educated annotators and supplied them with comprehensive
annotation rules because this is a sensitive issue, and we previously
discovered that untrained crowdsourcing annotators struggle with diagnosing
homophobia due to cultural and other prejudices. The dataset comprises 15,141
annotated multilingual comments. This paper describes the process of building
the dataset, qualitative analysis of data, and inter-annotator agreement. In
addition, we create baseline models for the dataset. To the best of our
knowledge, our dataset is the first such dataset created. Warning: This paper
contains explicit statements of homophobia, transphobia, stereotypes which may
be distressing to some readers.
- Abstract(参考訳): ソーシャルメディアプラットフォームにおける乱用コンテンツの増加は、オンラインユーザーに悪影響を及ぼす。
レズビアン、ゲイ、トランスジェンダー、バイセクシュアル人の恐怖、嫌悪、不快、不快、不信は、ホモフォビア/トランスフォビアとして定義される。
ホモフォビック/トランスフォビックスピーチは、LGBT+の人々を対象としたヘイトスピーチとして要約される攻撃的な言語の一種であり、近年は懸念が高まっている。
オンラインホモフォビア/トランスフォビアは深刻な社会問題であり、オンラインプラットフォームはLGBT+の人々にとって有毒で歓迎されないだけでなく、平等、多様性、包摂性を排除しようとしている。
オンラインホモフォビアとトランスフォビアのための新しい階層型分類法と、ホモフォビア/トランスフォビアコンテンツの自動識別を可能にする専門家ラベル付きデータセットを提供する。
これはセンシティブな問題であるため、アノテーションを教育し、包括的なアノテーションルールを提供した。そして、以前、訓練されていないクラウドソーシングアノテーションは、文化や他の偏見によるホモフォビアの診断に苦しむことを発見しました。
データセットは、注釈付き多言語コメント15,141を含む。
本稿では,データセットの構築プロセス,データの質的分析,アノテーション間合意について述べる。
さらに、データセットのベースラインモデルを作成します。
私たちの知る限りでは、私たちのデータセットは最初のそのようなデータセットです。
注意:本論文では,ホモフォビア,トランスフォビア,ステレオタイプの明示的な記述を含んでいる。
関連論文リスト
- Bridging the gap in online hate speech detection: a comparative analysis of BERT and traditional models for homophobic content identification on X/Twitter [0.7366405857677227]
我々は、X/Twitter上のホモフォビックコンテンツを識別するためのニュアンスなアプローチを開発した。
この研究は、検出モデルにおけるホモフォビアの持続的低表現のために重要である。
我々の知るホモフォビア検出のための、最大のオープンソースのラベル付き英語データセットをリリースすることによって、オンラインの安全性と傾きを高めることを目指している。
論文 参考訳(メタデータ) (2024-05-15T10:02:47Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Cordyceps@LT-EDI: Patching Language-Specific Homophobia/Transphobia
Classifiers with a Multilingual Understanding [0.0]
ホモフォビアおよびトランスフォビアヘイトスピーチ検出のための多言語(M-L)と言語固有の(L-S)アプローチを提案する。
M-Lモデルは、特定の言語では一般的でない、あるいは欠落している単語、フレーズ、概念をキャッチするために必要である。
L-Sモデルは、通常特定の言語で書くユーザーの文化的・言語的文脈を理解するのに適している。
論文 参考訳(メタデータ) (2023-09-24T06:37:54Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - Detection of Homophobia & Transphobia in Dravidian Languages: Exploring
Deep Learning Methods [1.5687561161428403]
ホモフォビアとトランスフォビアはLGBT+コミュニティに対する攻撃的なコメントを構成している。
本稿では,マラヤラムとタミル・ランゲージのソーシャルメディアコメントの分類に異なるディープラーニング・モジュールの適用性を検討する。
論文 参考訳(メタデータ) (2023-04-03T12:15:27Z) - Detecting Harmful Online Conversational Content towards LGBTQIA+
Individuals [30.03410762695714]
この研究は現実世界のデータセットを導入し、有害なオンライン会話コンテンツの研究と理解を可能にします。
2つのベースライン機械学習モデルと、事前訓練された3つの大規模言語モデルを実装した。
以上の結果から,オンライン対LGBTQIA+会話コンテンツ検出タスクにおいて,大規模言語モデルが非常に有望な性能が得られることが確認された。
論文 参考訳(メタデータ) (2022-06-15T20:14:02Z) - Korean Online Hate Speech Dataset for Multilabel Classification: How Can
Social Science Improve Dataset on Hate Speech? [0.4893345190925178]
韓国のネットヘイトスピーチデータセットに7つのカテゴリーのヘイトスピーチを分類することを提案する。
私たちの35Kデータセットは、Krippendorff氏のAlphaレーベルによる24Kのオンラインコメントで構成されています。
従来の二分的ヘイトや非ヘイト二分法とは異なり、文化と言語の両方の文脈を考慮したデータセットを設計した。
論文 参考訳(メタデータ) (2022-04-07T07:29:06Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z) - A Framework for the Computational Linguistic Analysis of Dehumanization [52.735780962665814]
我々は1986年から2015年にかけてニューヨーク・タイムズでLGBTQの人々に関する議論を分析した。
LGBTQの人々の人為的な記述は、時間とともにますます増えています。
大規模に非人間化言語を分析する能力は、メディアバイアスを自動的に検出し、理解するだけでなく、オンラインで乱用する言語にも影響を及ぼす。
論文 参考訳(メタデータ) (2020-03-06T03:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。