論文の概要: Developing a Multilingual Annotated Corpus of Misogyny and Aggression
- arxiv url: http://arxiv.org/abs/2003.07428v1
- Date: Mon, 16 Mar 2020 20:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:13:19.925624
- Title: Developing a Multilingual Annotated Corpus of Misogyny and Aggression
- Title(参考訳): MisogynyとAggressionの多言語アノテーションコーパスの開発
- Authors: Shiladitya Bhattacharya, Siddharth Singh, Ritesh Kumar, Akanksha
Bansal, Akash Bhagat, Yogesh Dawer, Bornini Lahiri, Atul Kr. Ojha
- Abstract要約: インド英語,ヒンディー語,インド・バングラ語における多言語アノテート・コーパスの展開について論じる。
データセットはYouTubeビデオのコメントから収集され、現在合計2万以上のコメントが含まれている。
- 参考スコア(独自算出の注目度): 1.0187588674939276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we discuss the development of a multilingual annotated corpus
of misogyny and aggression in Indian English, Hindi, and Indian Bangla as part
of a project on studying and automatically identifying misogyny and communalism
on social media (the ComMA Project). The dataset is collected from comments on
YouTube videos and currently contains a total of over 20,000 comments. The
comments are annotated at two levels - aggression (overtly aggressive, covertly
aggressive, and non-aggressive) and misogyny (gendered and non-gendered). We
describe the process of data collection, the tagset used for annotation, and
issues and challenges faced during the process of annotation. Finally, we
discuss the results of the baseline experiments conducted to develop a
classifier for misogyny in the three languages.
- Abstract(参考訳): 本稿では,インド英語,ヒンディー語,インドバングラ語において,ソーシャルメディア上でミソジニーとコミュニタリズムを学習し,自動的に識別するプロジェクトの一環として,多言語対応のミソジニー・アグレッシブションコーパスの開発について論じる(commaプロジェクト)。
データセットはYouTubeビデオのコメントから収集され、現在合計2万以上のコメントが含まれている。
コメントには攻撃性(過度に攻撃的、隠密に攻撃的、非攻撃的)と非攻撃性(性別と非性別)という2つのレベルがある。
本稿では,データ収集のプロセス,アノテーションに使用されるタグセット,アノテーションのプロセス中に直面する課題と課題について述べる。
最後に,三つの言語におけるミソジニーの分類器を開発するためのベースライン実験の結果について考察する。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - A multitask learning framework for leveraging subjectivity of annotators to identify misogyny [47.175010006458436]
本研究では,誤識別システムの性能向上を目的としたマルチタスク学習手法を提案する。
6つのプロファイルグループにまたがる性別と年齢を考慮したモデル設計において,アノテータからさまざまな視点を取り入れた。
本研究は、コンテンツモデレーションを推進し、効果的なオンラインモデレーションシステムを構築するための多様な視点を受け入れることの重要性を強調している。
論文 参考訳(メタデータ) (2024-06-22T15:06:08Z) - Exploratory Data Analysis on Code-mixed Misogynistic Comments [0.0]
我々は、ミックスコードHinglishでYouTubeコメントの新しいデータセットを提示する。
これらのコメントは「ミソジニスト」と「非ミソジニスト」とラベル付けされている。
論文 参考訳(メタデータ) (2024-03-09T23:21:17Z) - Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis [44.17106903728264]
ほとんどのヘイトスピーチデータセットは、単一の言語における文化的多様性を無視している。
そこで本研究では,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。
CREHateのポストの56.2%のみが全国でコンセンサスを達成しており、ペアのラベル差が最も高いのは26%である。
論文 参考訳(メタデータ) (2023-08-31T13:14:47Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - Hate Speech and Offensive Language Detection in Bengali [5.765076125746209]
我々は、5Kの実際のツイートと5Kのロマンティックなベンガルツイートからなる10Kのベンガルポストの注釈付きデータセットを開発する。
このような憎しみのあるポストの分類のためのベースラインモデルをいくつか実装する。
また、分類性能を高めるための言語間移動機構についても検討する。
論文 参考訳(メタデータ) (2022-10-07T12:06:04Z) - Deep Multi-Task Models for Misogyny Identification and Categorization on
Arabic Social Media [6.6410040715586005]
本稿では,最初のアラビア語ミソジニー識別共有タスクについて提案する。
3つのマルチタスク学習モデルと1つのタスク学習モデルについて検討する。
入力テキストを符号化するために、我々のモデルは事前訓練されたMARBERT言語モデルに依存している。
論文 参考訳(メタデータ) (2022-06-16T18:54:37Z) - The ComMA Dataset V0.2: Annotating Aggression and Bias in Multilingual
Social Media Discourse [1.465840097113565]
本稿では,異なるタイプの攻撃をマークした階層的,きめ細かなタグセットと,それらが発生する「コンテキスト」を付加した多言語データセットの開発について論じる。
最初のデータセットは4つの言語で合計15,000の注釈付きコメントで構成されている。
ソーシャルメディアのウェブサイトでは通常のように、これらのコメントの多くは多言語で、多くは英語と混在している。
論文 参考訳(メタデータ) (2021-11-19T19:03:22Z) - Let-Mi: An Arabic Levantine Twitter Dataset for Misogynistic Language [0.0]
今回我々は,アラビア語のミソジニーのための最初のベンチマークデータセットである,ミソジニズム言語(let-mi)のためのアラビア語レバンティンtwitterデータセットを紹介する。
Let-Miは、いくつかの最先端の機械学習システムによるバイナリ/マルチ/ターゲット分類タスクによる評価データセットとして使用されました。
論文 参考訳(メタデータ) (2021-03-18T12:01:13Z) - Hostility Detection Dataset in Hindi [44.221862384125245]
ヒンディー語で8200のオンライン投稿を手作業で収集し、注釈付けします。
データセットは、敵対的なクラス間で大きな重複があるため、マルチラベルタグとして考慮されている。
論文 参考訳(メタデータ) (2020-11-06T20:33:12Z) - A Framework for the Computational Linguistic Analysis of Dehumanization [52.735780962665814]
我々は1986年から2015年にかけてニューヨーク・タイムズでLGBTQの人々に関する議論を分析した。
LGBTQの人々の人為的な記述は、時間とともにますます増えています。
大規模に非人間化言語を分析する能力は、メディアバイアスを自動的に検出し、理解するだけでなく、オンラインで乱用する言語にも影響を及ぼす。
論文 参考訳(メタデータ) (2020-03-06T03:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。