論文の概要: Measuring Normative and Descriptive Biases in Language Models Using
Census Data
- arxiv url: http://arxiv.org/abs/2304.05764v1
- Date: Wed, 12 Apr 2023 11:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 15:21:18.756972
- Title: Measuring Normative and Descriptive Biases in Language Models Using
Census Data
- Title(参考訳): 国勢調査データを用いた言語モデルにおける規範バイアスおよび記述バイアスの測定
- Authors: Samia Touileb, Lilja {\O}vrelid, Erik Velldal
- Abstract要約: 本研究では、事前訓練された言語モデルにおいて、性別に関する職業がどのように反映されているかを検討する。
本稿では,事前学習した言語モデルが規範的および記述的職業分布にどの程度適合しているかを測定するためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 6.445605125467574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate in this paper how distributions of occupations with respect to
gender is reflected in pre-trained language models. Such distributions are not
always aligned to normative ideals, nor do they necessarily reflect a
descriptive assessment of reality. In this paper, we introduce an approach for
measuring to what degree pre-trained language models are aligned to normative
and descriptive occupational distributions. To this end, we use official
demographic information about gender--occupation distributions provided by the
national statistics agencies of France, Norway, United Kingdom, and the United
States. We manually generate template-based sentences combining gendered
pronouns and nouns with occupations, and subsequently probe a selection of ten
language models covering the English, French, and Norwegian languages. The
scoring system we introduce in this work is language independent, and can be
used on any combination of template-based sentences, occupations, and
languages. The approach could also be extended to other dimensions of national
census data and other demographic variables.
- Abstract(参考訳): 本稿では,性別に対する職業の分布が,事前学習された言語モデルにどのように反映されるかを検討する。
このような分布は必ずしも規範的イデアルと一致しないし、必ずしも現実の記述的評価を反映しているわけでもない。
本稿では,事前学習した言語モデルが規範的および記述的職業分布にどの程度整合しているかを測定するためのアプローチを提案する。
この目的のために我々は、フランス、ノルウェー、イギリス、およびアメリカ合衆国の国家統計機関が提供したジェンダー占有分布に関する公式の人口統計情報を利用する。
テンプレートに基づく文を手作業で生成し,その後,英語,フランス語,ノルウェー語を対象とする10種類の言語モデルを選択する。
本研究で導入したスコアシステムは言語に依存しないもので,テンプレートベースの文,職業,言語の組み合わせで使用することができる。
このアプローチは、国勢調査データやその他の人口統計変数の他の次元にも拡張することができる。
関連論文リスト
- Forcing Diffuse Distributions out of Language Models [70.28345569190388]
ユーザ命令に従うように特別に訓練されているにもかかわらず、今日の命令付き言語モデルは、ランダムな出力を生成するように指示された場合、性能が良くない。
本稿では,言語モデルに有効な結果に対して拡散した分布を出力することを奨励する微調整手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T19:17:23Z) - What is Your Favorite Gender, MLM? Gender Bias Evaluation in Multilingual Masked Language Models [8.618945530676614]
本稿では,中国語,英語,ドイツ語,ポルトガル語,スペイン語の5言語から,多言語辞書の性別バイアスを推定する手法を提案する。
ジェンダーバイアスのより堅牢な分析のための文対を生成するために,新しいモデルに基づく手法を提案する。
以上の結果から,複数の評価指標をベストプラクティスとして用いた大規模データセットでは,性別バイアスを研究すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T21:12:08Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - INCLUSIFY: A benchmark and a model for gender-inclusive German [0.0]
ジェンダーインクルージョン言語はジェンダーインフレクションを持つ言語においてジェンダー平等を達成するために重要である。
ジェンダーを包含する言語の使用を支援するために、いくつかのツールが開発されている。
ベンチマークのためのデータセットと尺度を示し、これらのタスクを実装するモデルを示す。
論文 参考訳(メタデータ) (2022-12-05T19:37:48Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Efficient Gender Debiasing of Pre-trained Indic Language Models [0.0]
言語モデルが事前訓練されたデータに存在する性別バイアスは、これらのモデルを使用するシステムに反映される。
本稿では,ヒンディー語モデルにおける職業に関する性別バイアスを測定した。
以上の結果から,提案手法の適応後のバイアスが低減されることが示唆された。
論文 参考訳(メタデータ) (2022-09-08T09:15:58Z) - Evaluating Gender Bias in Hindi-English Machine Translation [0.1503974529275767]
我々は,ヒンディー語の文法的考察に基づいて,TGBI計量の修正版を実装した。
我々は、事前学習した埋め込みのための複数のメトリクスと、機械翻訳モデルで学習したメトリクスを比較して比較する。
論文 参考訳(メタデータ) (2021-06-16T10:35:51Z) - They, Them, Theirs: Rewriting with Gender-Neutral English [56.14842450974887]
私たちは、英語でジェンダーインクルージョンを促進する一般的な方法である特異点についてケーススタディを行います。
本研究では, 人為的データを持たない1%の単語誤り率で, ジェンダーニュートラルな英語を学習できるモデルについて述べる。
論文 参考訳(メタデータ) (2021-02-12T21:47:48Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。