論文の概要: Global Voices, Local Biases: Socio-Cultural Prejudices across Languages
- arxiv url: http://arxiv.org/abs/2310.17586v1
- Date: Thu, 26 Oct 2023 17:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:48:13.025797
- Title: Global Voices, Local Biases: Socio-Cultural Prejudices across Languages
- Title(参考訳): グローバル音声, ローカルバイアス: 言語間の社会・文化的偏見
- Authors: Anjishnu Mukherjee, Chahat Raj, Ziwei Zhu, Antonios Anastasopoulos
- Abstract要約: 人間の偏見はユビキタスであるが、一様ではない。言語、文化、社会的境界を越えて格差が存在する。
本研究では,Word Embedding Association Test (WEAT) を24言語に拡張し,より広範な研究を可能にする。
より広く普及している社会的バイアスを包含するために、毒性、能力主義などにわたる新しいバイアス次元について検討する。
- 参考スコア(独自算出の注目度): 22.92083941222383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human biases are ubiquitous but not uniform: disparities exist across
linguistic, cultural, and societal borders. As large amounts of recent
literature suggest, language models (LMs) trained on human data can reflect and
often amplify the effects of these social biases. However, the vast majority of
existing studies on bias are heavily skewed towards Western and European
languages. In this work, we scale the Word Embedding Association Test (WEAT) to
24 languages, enabling broader studies and yielding interesting findings about
LM bias. We additionally enhance this data with culturally relevant information
for each language, capturing local contexts on a global scale. Further, to
encompass more widely prevalent societal biases, we examine new bias dimensions
across toxicity, ableism, and more. Moreover, we delve deeper into the Indian
linguistic landscape, conducting a comprehensive regional bias analysis across
six prevalent Indian languages. Finally, we highlight the significance of these
social biases and the new dimensions through an extensive comparison of
embedding methods, reinforcing the need to address them in pursuit of more
equitable language models. All code, data and results are available here:
https://github.com/iamshnoo/weathub.
- Abstract(参考訳): 人間のバイアスは普遍的だが一様ではない: 言語的、文化的、社会的な境界に格差が存在する。
最近の多くの文献が示唆しているように、人間のデータに基づいて訓練された言語モデル(LM)は、これらの社会的バイアスの影響を反映し、しばしば増幅することができる。
しかし、既存のバイアスに関する研究の大部分は、西欧語やヨーロッパ語に大きく偏っている。
本研究では,Word Embedding Association Test (WEAT) を24言語に拡張し,より広範な研究を可能にし,LMバイアスに関する興味深い知見を得た。
さらに、これらのデータを各言語に関する文化的関連情報で拡張し、グローバルスケールでローカルコンテキストをキャプチャする。
さらに,より広く普及している社会バイアスを包含するため,毒性,有能性等にまたがる新たなバイアス次元について検討する。
さらに,インドの言語景観を深く掘り下げ,6つの広範に分布するインド諸言語にまたがる地域的バイアス分析を行った。
最後に,これらの社会的バイアスと新たな次元の重要性を,埋め込み手法の広範な比較を通じて強調し,より公平な言語モデルを求める上での対処の必要性を補強する。
すべてのコード、データ、結果は以下の通りである。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Socially Aware Bias Measurements for Hindi Language Representations [38.40818373580979]
偏見は、広く話されている地域の歴史と文化に基づいて、特定の言語表現に特有のものであることを示す。
我々は,言語表現のモデル化において,言語的・文法的アーティファクトとともに,社会認識の必要性を強調した。
論文 参考訳(メタデータ) (2021-10-15T05:49:15Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Discovering and Categorising Language Biases in Reddit [5.670038395203354]
本稿では,Reddit上のオンライン談話コミュニティの語彙に符号化された言語バイアスを自動的に検出するデータ駆動型手法を提案する。
単語埋め込みを用いて、テキストを高次元の高密度ベクトルに変換し、単語間の意味的関係をキャプチャする。
さまざまなRedditコミュニティにおいて、ジェンダーバイアス、宗教バイアス、民族バイアスの発見に成功しました。
論文 参考訳(メタデータ) (2020-08-06T16:42:10Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。