論文の概要: Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context
- arxiv url: http://arxiv.org/abs/2307.03360v1
- Date: Fri, 7 Jul 2023 03:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 13:39:35.073765
- Title: Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context
- Title(参考訳): 交叉文脈における言語モデルのバイアス付き態度関係の評価
- Authors: Shiva Omrani Sabbaghi, Robert Wolfe and Aylin Caliskan
- Abstract要約: 言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
- 参考スコア(独自算出の注目度): 2.891314299138311
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language models are trained on large-scale corpora that embed implicit biases
documented in psychology. Valence associations (pleasantness/unpleasantness) of
social groups determine the biased attitudes towards groups and concepts in
social cognition. Building on this established literature, we quantify how
social groups are valenced in English language models using a sentence template
that provides an intersectional context. We study biases related to age,
education, gender, height, intelligence, literacy, race, religion, sex, sexual
orientation, social class, and weight. We present a concept projection approach
to capture the valence subspace through contextualized word embeddings of
language models. Adapting the projection-based approach to embedding
association tests that quantify bias, we find that language models exhibit the
most biased attitudes against gender identity, social class, and sexual
orientation signals in language. We find that the largest and better-performing
model that we study is also more biased as it effectively captures bias
embedded in sociocultural data. We validate the bias evaluation method by
overperforming on an intrinsic valence evaluation task. The approach enables us
to measure complex intersectional biases as they are known to manifest in the
outputs and applications of language models that perpetuate historical biases.
Moreover, our approach contributes to design justice as it studies the
associations of groups underrepresented in language such as transgender and
homosexual individuals.
- Abstract(参考訳): 言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
社会的集団のヴァレンス・アソシエーション(不快/不快)は、社会的認知におけるグループや概念に対する偏った態度を決定する。
この確立した文献に基づいて,交叉的文脈を提供する文テンプレートを用いて,英語モデルにおける社会集団の有価価値の定量化を行う。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
本稿では,言語モデルの文脈的単語埋め込みを通じてヴァレンス部分空間を捉えるための概念投影手法を提案する。
偏見を定量化する包括的関連テストにプロジェクションに基づくアプローチを適用すると、言語モデルは、言語における性同一性、社会的階級、性的指向信号に対して最も偏見のある態度を示す。
社会文化データに埋め込まれたバイアスを効果的に捉えることで、私たちが研究している最大かつ優れたパフォーマンスモデルにもバイアスがかかります。
固有値評価タスクをオーバーパフォーマンスしてバイアス評価手法を検証する。
このアプローチにより、歴史的なバイアスを持続する言語モデルのアウトプットや応用において、複雑な交叉バイアスを計測することができる。
さらに,トランスジェンダーや同性愛者といった言語で過小評価される集団の関連を研究することにより,デザイン・ジャスティスに寄与する。
関連論文リスト
- Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Generative Language Models Exhibit Social Identity Biases [18.175179449419787]
我々は,51大言語モデルにおいて,社会科学の基本的な社会的バイアスである,集団内連帯性と集団外連帯性について検討する。
ほぼすべての基礎言語モデルといくつかの命令微調整モデルは、文の完全化を促すと、グループ内陽性およびグループ外陰性バイアスが明らかになる。
論文 参考訳(メタデータ) (2023-10-24T13:17:40Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Towards Debiasing Sentence Representations [109.70181221796469]
Sent-Debiasはバイアスを取り除くのに有効であり、同時に文レベルの下流タスクのパフォーマンスを保っていることを示す。
我々は、より公平なNLPのための広く採用されている文表現から社会的偏見を識別・除去する今後の研究に刺激を与えることを期待している。
論文 参考訳(メタデータ) (2020-07-16T04:22:30Z) - Detecting Emergent Intersectional Biases: Contextualized Word Embeddings
Contain a Distribution of Human-like Biases [10.713568409205077]
最先端のニューラルネットワークモデルは、単語が現れるコンテキストに依存する動的単語埋め込みを生成する。
本稿では、ニューラルネットワークモデルにおける全体的なバイアスの大きさを要約できる、コンテキスト適応型埋め込みアソシエーションテスト(CEAT)を紹介する。
静的な単語埋め込みから交差点バイアスと緊急交差点バイアスを自動的に識別する2つの方法,IBD (Intersectional Bias Detection) とEmergent Intersectional Bias Detection (EIBD) を開発した。
論文 参考訳(メタデータ) (2020-06-06T19:49:50Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。