論文の概要: Measuring Geographic Performance Disparities of Offensive Language
Classifiers
- arxiv url: http://arxiv.org/abs/2209.07353v1
- Date: Thu, 15 Sep 2022 15:08:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:47:42.918072
- Title: Measuring Geographic Performance Disparities of Offensive Language
Classifiers
- Title(参考訳): 攻撃的言語分類器の地理的性能差の測定
- Authors: Brandon Lwowski, Paul Rad, Anthony Rios
- Abstract要約: 「言語、方言、話題の内容は地域によって異なるのか?」「地域によって異なる場合、モデルのパフォーマンスに影響を及ぼすのか?」
同様に、攻撃的な言語モデルがアフリカ系アメリカ人の英語に偽陽性をもたらすのに対し、モデル性能は各都市の少数人口比と相関しないことを示す。
- 参考スコア(独自算出の注目度): 12.545108947857802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text classifiers are applied at scale in the form of one-size-fits-all
solutions. Nevertheless, many studies show that classifiers are biased
regarding different languages and dialects. When measuring and discovering
these biases, some gaps present themselves and should be addressed. First,
``Does language, dialect, and topical content vary across geographical
regions?'' and secondly ``If there are differences across the regions, do they
impact model performance?''. We introduce a novel dataset called GeoOLID with
more than 14 thousand examples across 15 geographically and demographically
diverse cities to address these questions. We perform a comprehensive analysis
of geographical-related content and their impact on performance disparities of
offensive language detection models. Overall, we find that current models do
not generalize across locations. Likewise, we show that while offensive
language models produce false positives on African American English, model
performance is not correlated with each city's minority population proportions.
Warning: This paper contains offensive language.
- Abstract(参考訳): テキスト分類器はワンサイズフィットのソリューションとして大規模に適用される。
しかし、多くの研究は、分類器が異なる言語や方言に偏っていることを示している。
これらのバイアスを計測し発見する時、いくつかのギャップが存在し、対処すべきである。
第一に,'does language, dialect, and topical content は地理的地域によって異なるか' と 'the region に差異がある場合,それらはモデルのパフォーマンスに影響を与えるか'' である。
我々は、ジオオリドと呼ばれる新しいデータセットを導入し、15の地理的・人口学的に多様な都市で14万以上のサンプルを作成し、これらの問題に対処した。
地理関連コンテンツの包括的分析を行い,攻撃的言語検出モデルの性能差に与える影響について検討した。
全体として、現在のモデルは、場所をまたいで一般化しない。
同様に、攻撃的な言語モデルがアフリカ系アメリカ人の英語に偽陽性をもたらすのに対し、モデル性能は各都市の少数人口比と相関しないことを示す。
警告: 本論文は攻撃的言語を含んでいる。
関連論文リスト
- On the Scaling Laws of Geographical Representation in Language Models [0.11510009152620666]
地理的知識は,小さなモデルであっても観測可能であること,モデルのサイズが大きくなるにつれて連続的に拡張可能であることを示す。
特に、より大規模な言語モデルでは、トレーニングデータに固有の地理的バイアスを緩和できない。
論文 参考訳(メタデータ) (2024-02-29T18:04:11Z) - Large Language Models are Geographically Biased [51.37609528538606]
我々は、地理のレンズを通して、我々の住む世界について、Large Language Models (LLM)が何を知っているかを研究する。
我々は,地理空間予測において,システム的誤りと定義する,様々な問題的地理的バイアスを示す。
論文 参考訳(メタデータ) (2024-02-05T02:32:09Z) - Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Global Voices, Local Biases: Socio-Cultural Prejudices across Languages [22.92083941222383]
人間の偏見はユビキタスであるが、一様ではない。言語、文化、社会的境界を越えて格差が存在する。
本研究では,Word Embedding Association Test (WEAT) を24言語に拡張し,より広範な研究を可能にする。
より広く普及している社会的バイアスを包含するために、毒性、能力主義などにわたる新しいバイアス次元について検討する。
論文 参考訳(メタデータ) (2023-10-26T17:07:50Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Computer Vision Datasets and Models Exhibit Cultural and Linguistic
Diversity in Perception [28.716435050743957]
異なる文化的背景を持つ人々が、同じ視覚刺激を視る場合でも、いかに異なる概念を観察するかを考察する。
同じ画像に対して7つの言語で生成されたテキスト記述を比較することで,意味内容と言語表現に有意な差が認められた。
私たちの研究は、コンピュータビジョンコミュニティにおける人間の知覚の多様性を考慮し、受け入れる必要性に注目しています。
論文 参考訳(メタデータ) (2023-10-22T16:51:42Z) - Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Geolocation differences of language use in urban areas [0.0]
都市部における言語利用の空間的変動を解決するために,正確な位置情報情報を用いたTwitterデータの利用について検討した。
本研究は,小規模変動の分析により,言語使用と社会的文脈の相関関係について一意的な情報が得られることを示す。
論文 参考訳(メタデータ) (2021-08-01T19:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。