論文の概要: Developing a Multilingual Annotated Corpus of Misogyny and Aggression
- arxiv url: http://arxiv.org/abs/2003.07428v1
- Date: Mon, 16 Mar 2020 20:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:13:19.925624
- Title: Developing a Multilingual Annotated Corpus of Misogyny and Aggression
- Title(参考訳): MisogynyとAggressionの多言語アノテーションコーパスの開発
- Authors: Shiladitya Bhattacharya, Siddharth Singh, Ritesh Kumar, Akanksha
Bansal, Akash Bhagat, Yogesh Dawer, Bornini Lahiri, Atul Kr. Ojha
- Abstract要約: インド英語,ヒンディー語,インド・バングラ語における多言語アノテート・コーパスの展開について論じる。
データセットはYouTubeビデオのコメントから収集され、現在合計2万以上のコメントが含まれている。
- 参考スコア(独自算出の注目度): 1.0187588674939276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we discuss the development of a multilingual annotated corpus
of misogyny and aggression in Indian English, Hindi, and Indian Bangla as part
of a project on studying and automatically identifying misogyny and communalism
on social media (the ComMA Project). The dataset is collected from comments on
YouTube videos and currently contains a total of over 20,000 comments. The
comments are annotated at two levels - aggression (overtly aggressive, covertly
aggressive, and non-aggressive) and misogyny (gendered and non-gendered). We
describe the process of data collection, the tagset used for annotation, and
issues and challenges faced during the process of annotation. Finally, we
discuss the results of the baseline experiments conducted to develop a
classifier for misogyny in the three languages.
- Abstract(参考訳): 本稿では,インド英語,ヒンディー語,インドバングラ語において,ソーシャルメディア上でミソジニーとコミュニタリズムを学習し,自動的に識別するプロジェクトの一環として,多言語対応のミソジニー・アグレッシブションコーパスの開発について論じる(commaプロジェクト)。
データセットはYouTubeビデオのコメントから収集され、現在合計2万以上のコメントが含まれている。
コメントには攻撃性(過度に攻撃的、隠密に攻撃的、非攻撃的)と非攻撃性(性別と非性別)という2つのレベルがある。
本稿では,データ収集のプロセス,アノテーションに使用されるタグセット,アノテーションのプロセス中に直面する課題と課題について述べる。
最後に,三つの言語におけるミソジニーの分類器を開発するためのベースライン実験の結果について考察する。
関連論文リスト
- Less than one percent of words would be affected by gender-inclusive
language in German press texts [43.16629507708997]
平均して、すべてのトークンの1%以下は、ジェンダー非包摂的言語に影響されることが示されている。
この小さな割合は、ジェンダーを包含するドイツ語が言語を理解し学習する上で大きな障壁となるかどうかに疑問を呈している。
論文 参考訳(メタデータ) (2024-02-06T10:32:34Z) - CREHate: A CRoss-cultural English Hate Speech Dataset [46.386059125840376]
ほとんどのNLPデータセットは言語話者の文化的多様性を無視しており、ヘイトスピーチ検出において重大な欠点をもたらす。
そこで本研究では,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。
論文 参考訳(メタデータ) (2023-08-31T13:14:47Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - Hate Speech and Offensive Language Detection in Bengali [5.765076125746209]
我々は、5Kの実際のツイートと5Kのロマンティックなベンガルツイートからなる10Kのベンガルポストの注釈付きデータセットを開発する。
このような憎しみのあるポストの分類のためのベースラインモデルをいくつか実装する。
また、分類性能を高めるための言語間移動機構についても検討する。
論文 参考訳(メタデータ) (2022-10-07T12:06:04Z) - Deep Multi-Task Models for Misogyny Identification and Categorization on
Arabic Social Media [6.6410040715586005]
本稿では,最初のアラビア語ミソジニー識別共有タスクについて提案する。
3つのマルチタスク学習モデルと1つのタスク学習モデルについて検討する。
入力テキストを符号化するために、我々のモデルは事前訓練されたMARBERT言語モデルに依存している。
論文 参考訳(メタデータ) (2022-06-16T18:54:37Z) - "Stop Asian Hate!" : Refining Detection of Anti-Asian Hate Speech During
the COVID-19 Pandemic [2.5227595609842206]
新型コロナウイルス(COVID-19)のパンデミックは、アジアでのキセノフォビアと偏見の急増を加速させた。
我々は2つの実験的なアプローチを用いてTwitterのツイートのコーパスを作成して注釈付けし、反アジア人虐待とヘイトスピーチを探索する。
論文 参考訳(メタデータ) (2021-12-04T06:55:19Z) - The ComMA Dataset V0.2: Annotating Aggression and Bias in Multilingual
Social Media Discourse [1.465840097113565]
本稿では,異なるタイプの攻撃をマークした階層的,きめ細かなタグセットと,それらが発生する「コンテキスト」を付加した多言語データセットの開発について論じる。
最初のデータセットは4つの言語で合計15,000の注釈付きコメントで構成されている。
ソーシャルメディアのウェブサイトでは通常のように、これらのコメントの多くは多言語で、多くは英語と混在している。
論文 参考訳(メタデータ) (2021-11-19T19:03:22Z) - Let-Mi: An Arabic Levantine Twitter Dataset for Misogynistic Language [0.0]
今回我々は,アラビア語のミソジニーのための最初のベンチマークデータセットである,ミソジニズム言語(let-mi)のためのアラビア語レバンティンtwitterデータセットを紹介する。
Let-Miは、いくつかの最先端の機械学習システムによるバイナリ/マルチ/ターゲット分類タスクによる評価データセットとして使用されました。
論文 参考訳(メタデータ) (2021-03-18T12:01:13Z) - Gender bias in magazines oriented to men and women: a computational
approach [58.720142291102135]
女性指向の雑誌の内容と男性指向の雑誌の内容を比較する。
トピック・モデリングの手法により、雑誌で議論されている主要なテーマを特定し、これらのトピックの存在が時間とともに雑誌間でどの程度異なるかを定量化する。
以上の結果から,セクシュアオブジェクトとしての家族,ビジネス,女性の出現頻度は,時間とともに消失する傾向にあることが示唆された。
論文 参考訳(メタデータ) (2020-11-24T14:02:49Z) - Hostility Detection Dataset in Hindi [44.221862384125245]
ヒンディー語で8200のオンライン投稿を手作業で収集し、注釈付けします。
データセットは、敵対的なクラス間で大きな重複があるため、マルチラベルタグとして考慮されている。
論文 参考訳(メタデータ) (2020-11-06T20:33:12Z) - A Framework for the Computational Linguistic Analysis of Dehumanization [52.735780962665814]
我々は1986年から2015年にかけてニューヨーク・タイムズでLGBTQの人々に関する議論を分析した。
LGBTQの人々の人為的な記述は、時間とともにますます増えています。
大規模に非人間化言語を分析する能力は、メディアバイアスを自動的に検出し、理解するだけでなく、オンラインで乱用する言語にも影響を及ぼす。
論文 参考訳(メタデータ) (2020-03-06T03:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。