論文の概要: The Uli Dataset: An Exercise in Experience Led Annotation of oGBV
- arxiv url: http://arxiv.org/abs/2311.09086v3
- Date: Mon, 24 Jun 2024 07:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 04:39:08.267190
- Title: The Uli Dataset: An Exercise in Experience Led Annotation of oGBV
- Title(参考訳): Uli Dataset:oGBVの注釈付きエクスペリエンスのエクササイズ
- Authors: Arnav Arora, Maha Jinadoss, Cheshta Arora, Denny George, Brindaalakshmi, Haseena Dawood Khan, Kirti Rawat, Div, Ritash, Seema Mathur, Shivani Yadav, Shehla Rashid Shora, Rie Raut, Sumit Pawar, Apurva Paithane, Sonia, Vivek, Dharini Priscilla, Khairunnisha, Grace Banu, Ambika Tandon, Rishav Thakker, Rahul Dev Korra, Aatman Vaidya, Tarunima Prabhakar,
- Abstract要約: ヒンディー語、タミル語、インド英語の3言語で性別による虐待に関するデータセットを提示する。
このデータセットは、女性や南アジアのLGBTQIAコミュニティのメンバーと同一視する専門家によって、性虐待の経験に関する3つの質問に沿って注釈付けされたツイートで構成されている。
- 参考スコア(独自算出の注目度): 3.1060730586569427
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Online gender based violence has grown concomitantly with adoption of the internet and social media. Its effects are worse in the Global majority where many users use social media in languages other than English. The scale and volume of conversations on the internet has necessitated the need for automated detection of hate speech, and more specifically gendered abuse. There is, however, a lack of language specific and contextual data to build such automated tools. In this paper we present a dataset on gendered abuse in three languages- Hindi, Tamil and Indian English. The dataset comprises of tweets annotated along three questions pertaining to the experience of gender abuse, by experts who identify as women or a member of the LGBTQIA community in South Asia. Through this dataset we demonstrate a participatory approach to creating datasets that drive AI systems.
- Abstract(参考訳): オンラインジェンダーベースの暴力は、インターネットやソーシャルメディアの採用と相まって成長している。
その影響は、多くのユーザーが英語以外の言語でソーシャルメディアを使っている世界の大多数で悪化している。
インターネット上での会話の規模と量によって、ヘイトスピーチの自動検出や、より具体的にはジェンダーによる虐待の必要性が高まっている。
しかし、そのような自動化ツールを構築するための言語固有のデータやコンテキストデータがない。
本稿では,ヒンディー語,タミル語,インド英語の3言語における性虐待に関するデータセットを提案する。
このデータセットは、女性や南アジアのLGBTQIAコミュニティのメンバーと同一視する専門家によって、性虐待の経験に関する3つの質問に沿って注釈付けされたツイートで構成されている。
このデータセットを通じて、AIシステムを駆動するデータセットを作成するための参加型アプローチを示します。
関連論文リスト
- Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces [0.6543929004971272]
チームCNLP-NITS-PPは、CNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。
CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。
BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。
評価スコアはf1尺度、特に英語0.84に対して高い性能を示した。
論文 参考訳(メタデータ) (2024-04-02T14:55:47Z) - The Gender-GAP Pipeline: A Gender-Aware Polyglot Pipeline for Gender
Characterisation in 55 Languages [51.2321117760104]
本稿では,55言語を対象とした大規模データセットにおけるジェンダー表現を特徴付ける自動パイプラインであるGender-GAP Pipelineについて述べる。
このパイプラインは、性別付き人称名詞の多言語語彙を用いて、テキスト中の性別表現を定量化する。
本稿では、WMTのトレーニングデータとNewsタスクの開発データにジェンダー表現を報告し、現在のデータが男性表現にスキューされていることを確認する。
論文 参考訳(メタデータ) (2023-08-31T17:20:50Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - Detecting Harmful Online Conversational Content towards LGBTQIA+
Individuals [30.03410762695714]
この研究は現実世界のデータセットを導入し、有害なオンライン会話コンテンツの研究と理解を可能にします。
2つのベースライン機械学習モデルと、事前訓練された3つの大規模言語モデルを実装した。
以上の結果から,オンライン対LGBTQIA+会話コンテンツ検出タスクにおいて,大規模言語モデルが非常に有望な性能が得られることが確認された。
論文 参考訳(メタデータ) (2022-06-15T20:14:02Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - A Large-scale Dataset for Hate Speech Detection on Vietnamese Social
Media Texts [0.32228025627337864]
ViHSDは、ソーシャルネットワーク上でヘイトスピーチを自動的に検出する人間アノテーション付きデータセットである。
このデータセットには30,000以上のコメントが含まれており、データセットの各コメントにはCLEAN、OFENSIVE、HATEの3つのラベルの1つが含まれている。
論文 参考訳(メタデータ) (2021-03-22T00:55:47Z) - They, Them, Theirs: Rewriting with Gender-Neutral English [56.14842450974887]
私たちは、英語でジェンダーインクルージョンを促進する一般的な方法である特異点についてケーススタディを行います。
本研究では, 人為的データを持たない1%の単語誤り率で, ジェンダーニュートラルな英語を学習できるモデルについて述べる。
論文 参考訳(メタデータ) (2021-02-12T21:47:48Z) - Intersectional Bias in Hate Speech and Abusive Language Datasets [0.3149883354098941]
アフリカ系アメリカ人のツイートの3.7倍は虐待的だと評価される傾向があった。
アフリカ系アメリカ人の男性ツイートは、ヘイトフルと評価される確率が最大で77%だった。
本研究はヘイトスピーチと虐待言語のデータセットにおける交差バイアスに関する最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2020-05-12T16:58:48Z) - A Framework for the Computational Linguistic Analysis of Dehumanization [52.735780962665814]
我々は1986年から2015年にかけてニューヨーク・タイムズでLGBTQの人々に関する議論を分析した。
LGBTQの人々の人為的な記述は、時間とともにますます増えています。
大規模に非人間化言語を分析する能力は、メディアバイアスを自動的に検出し、理解するだけでなく、オンラインで乱用する言語にも影響を及ぼす。
論文 参考訳(メタデータ) (2020-03-06T03:02:12Z) - Transfer Learning for Hate Speech Detection in Social Media [14.759208309842178]
本稿では、2つの独立したデータセットを協調的に活用するために転送学習手法を用いる。
我々は、構築されたヘイトスピーチ表現の解釈可能な2次元可視化ツールを構築します。
この共同表現は,限られた監督範囲の場合にのみ予測性能が向上することを示す。
論文 参考訳(メタデータ) (2019-06-10T08:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。