論文の概要: An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages
- arxiv url: http://arxiv.org/abs/2211.14402v1
- Date: Fri, 25 Nov 2022 23:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 16:44:14.969305
- Title: An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages
- Title(参考訳): 複数の言語にまたがるBERT変数における社会的バイアスの分析
- Authors: Aristides Milios (1 and 2), Parishad BehnamGhader (1 and 2) ((1)
McGill University, (2) Mila)
- Abstract要約: 多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large pre-trained language models have achieved great success in
many NLP tasks, it has been shown that they reflect human biases from their
pre-training corpora. This bias may lead to undesirable outcomes when these
models are applied in real-world settings. In this paper, we investigate the
bias present in monolingual BERT models across a diverse set of languages
(English, Greek, and Persian). While recent research has mostly focused on
gender-related biases, we analyze religious and ethnic biases as well and
propose a template-based method to measure any kind of bias, based on sentence
pseudo-likelihood, that can handle morphologically complex languages with
gender-based adjective declensions. We analyze each monolingual model via this
method and visualize cultural similarities and differences across different
dimensions of bias. Ultimately, we conclude that current methods of probing for
bias are highly language-dependent, necessitating cultural insights regarding
the unique ways bias is expressed in each language and culture (e.g. through
coded language, synecdoche, and other similar linguistic concepts). We also
hypothesize that higher measured social biases in the non-English BERT models
correlate with user-generated content in their training.
- Abstract(参考訳): 多くのNLPタスクにおいて、大きな事前学習言語モデルは大きな成功を収めてきたが、それらは事前学習コーパスからの人間のバイアスを反映していることが示されている。
このバイアスは、実際の設定でこれらのモデルを適用する場合、望ましくない結果をもたらす可能性がある。
本稿では,多種多様な言語(英語,ギリシア語,ペルシア語)における単言語bertモデルにおけるバイアスについて検討する。
近年の研究は、主にジェンダーに関連するバイアスに焦点を当ててきたが、宗教や民族のバイアスも分析し、文章の擬類似性に基づいて任意の種類のバイアスを測定するテンプレートベースの手法を提案している。
本手法により,各単言語モデルを分析し,バイアスの異なる次元における文化的類似性と差異を可視化する。
最終的に、バイアスを求める現在の方法は非常に言語に依存しており、それぞれの言語や文化(例えば、コード化された言語、シナコドチェ、その他の類似した言語概念)でバイアスが表現される方法に関する文化的洞察が必要であると結論づける。
また、非英語のBERTモデルにおける高い社会的バイアスは、トレーニング中のユーザ生成コンテンツと相関する、という仮説を立てた。
関連論文リスト
- Investigating Gender Bias in Turkish Language Models [3.100560442806189]
トルコ語モデルにおけるジェンダーバイアスの重要性について検討する。
我々は既存のバイアス評価フレームワークを構築し、それらをトルコ語に拡張する。
具体的には、クルド人の民族的偏見を埋め込んだトルコ語モデルを評価する。
論文 参考訳(メタデータ) (2024-04-17T20:24:41Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Bias at a Second Glance: A Deep Dive into Bias for German Educational
Peer-Review Data Modeling [10.080007569933331]
我々は5年間で9,165人のドイツのピアレビューのコーパスで、テキストと複数のアーキテクチャ間のバイアスを分析します。
収集したコーパスは, 共起解析やGloVe埋め込みにおいて多くのバイアスを示さない。
事前訓練されたドイツの言語モデルは、実質的な概念的、人種的、性別的偏見を見出す。
論文 参考訳(メタデータ) (2022-09-21T13:08:16Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Mitigating Language-Dependent Ethnic Bias in BERT [11.977810781738603]
単言語BERTにおける民族バイアスの分析と緩和により、民族バイアスと言語によってどのように異なるかを研究する。
民族バイアスを観察・定量化するために,カテゴリーバイアススコアと呼ばれる新しい指標を開発した。
本稿では,まず多言語モデルと2つの単言語モデルの文脈的単語アライメントを用いた2つの緩和手法を提案する。
論文 参考訳(メタデータ) (2021-09-13T04:52:41Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。