論文の概要: Multilingual Twitter Corpus and Baselines for Evaluating Demographic
Bias in Hate Speech Recognition
- arxiv url: http://arxiv.org/abs/2002.10361v2
- Date: Tue, 3 Mar 2020 13:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:56:05.466165
- Title: Multilingual Twitter Corpus and Baselines for Evaluating Demographic
Bias in Hate Speech Recognition
- Title(参考訳): ヘイト音声認識におけるマルチ言語Twitterコーパスとデモグラフィックバイアス評価基準
- Authors: Xiaolei Huang, Linzi Xing, Franck Dernoncourt, Michael J. Paul
- Abstract要約: ヘイトスピーチ検出のための多言語Twitterコーパスを公開している。
コーパスは英語、イタリア語、ポーランド語、ポルトガル語、スペイン語の5つの言語をカバーしている。
我々は、クラウドソーシングプラットフォームを用いて、推定された人口統計ラベルを評価した。
- 参考スコア(独自算出の注目度): 46.57105755981092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing research on fairness evaluation of document classification models
mainly uses synthetic monolingual data without ground truth for author
demographic attributes. In this work, we assemble and publish a multilingual
Twitter corpus for the task of hate speech detection with inferred four author
demographic factors: age, country, gender and race/ethnicity. The corpus covers
five languages: English, Italian, Polish, Portuguese and Spanish. We evaluate
the inferred demographic labels with a crowdsourcing platform, Figure Eight. To
examine factors that can cause biases, we take an empirical analysis of
demographic predictability on the English corpus. We measure the performance of
four popular document classifiers and evaluate the fairness and bias of the
baseline classifiers on the author-level demographic attributes.
- Abstract(参考訳): 文献分類モデルの公平性評価に関する最近の研究は、著者の属性に根拠のない合成単言語データを用いている。
本研究では,年齢,国,性別,人種/民族性という4つの要因を推定したヘイトスピーチ検出タスクのための多言語twitterコーパスを収集し,公開する。
英語、イタリア語、ポーランド語、ポルトガル語、スペイン語の5言語をカバーしている。
私たちはクラウドソーシングプラットフォームである図8を使って、推定された人口統計ラベルを評価します。
偏見を生じさせる要因を検討するため,英文コーパスにおける人口統計学的予測可能性の実証分析を行った。
4種類の人気文書分類器の性能を計測し,著者単位の属性に対する基準分類器の公平性とバイアスを評価した。
関連論文リスト
- Understanding Position Bias Effects on Fairness in Social Multi-Document Summarization [1.9950682531209158]
3つの言語コミュニティからのつぶやきを要約する際の入力文書におけるグループ順序付けの効果について検討する。
以上の結果から,社会的多文書要約では位置バイアスが異なることが示唆された。
論文 参考訳(メタデータ) (2024-05-03T00:19:31Z) - Comprehending Lexical and Affective Ontologies in the Demographically
Diverse Spatial Social Media Discourse [0.0]
本研究の目的は、英語のスタイル、感情の伝達、ソーシャルメディアデータにおける語彙の多様性など、言語的・社会的なデコグラフィーの特徴を理解することである。
分析では,2つのグループから統計的,文法的,感情的特徴を抽出し,検討する。
両群間の言語特性の相違が明らかとなり,マクロF1スコアは約0.85となった。
論文 参考訳(メタデータ) (2023-11-12T04:23:33Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Average Is Not Enough: Caveats of Multilingual Evaluation [0.0]
このような偏見を検出するためには,比較言語学による質的分析が必要であると論じる。
本稿では,本研究の結果が言語的に偏りがあることを示すとともに,onEL型データベースに基づく可視化が検出可能であることを示す。
論文 参考訳(メタデータ) (2023-01-03T18:23:42Z) - Bias at a Second Glance: A Deep Dive into Bias for German Educational
Peer-Review Data Modeling [10.080007569933331]
我々は5年間で9,165人のドイツのピアレビューのコーパスで、テキストと複数のアーキテクチャ間のバイアスを分析します。
収集したコーパスは, 共起解析やGloVe埋め込みにおいて多くのバイアスを示さない。
事前訓練されたドイツの言語モデルは、実質的な概念的、人種的、性別的偏見を見出す。
論文 参考訳(メタデータ) (2022-09-21T13:08:16Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。