論文の概要: Language-Agnostic Bias Detection in Language Models
- arxiv url: http://arxiv.org/abs/2305.13302v1
- Date: Mon, 22 May 2023 17:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 13:28:51.229676
- Title: Language-Agnostic Bias Detection in Language Models
- Title(参考訳): 言語モデルにおける言語非依存バイアス検出
- Authors: Abdullatif K\"oksal, Omer Faruk Yalcin, Ahmet Akbiyik, M. Tahir
Kilavuz, Anna Korhonen, Hinrich Sch\"utze
- Abstract要約: プレトレーニング言語モデル(PLM)はNLPの主要な構成要素であるが、強い社会的バイアスを含んでいる。
PLMのバイアス評価のための頑健な言語非依存手法であるLABDetを提案する。
歴史的・政治的文脈に整合した6つの言語において,一貫した民族性バイアスパターンがモノリンガル PLM にまたがっていることがわかった。
- 参考スコア(独自算出の注目度): 13.392153721811557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models (PLMs) are key components in NLP, but they contain
strong social biases. Quantifying these biases is challenging because current
methods focusing on fill-the-mask objectives are sensitive to slight changes in
input. To address this, we propose LABDet, a robust language-agnostic method
for evaluating bias in PLMs. For nationality as a case study, we show that
LABDet "surfaces" nationality bias by training a classifier on top of a frozen
PLM on non-nationality sentiment detection. Collaborating with political
scientists, we find consistent patterns of nationality bias across monolingual
PLMs in six languages that align with historical and political context. We also
show for English BERT that bias surfaced by LABDet correlates well with bias in
the pretraining data; thus, our work is one of the few studies that directly
links pretraining data to PLM behavior. Finally, we verify LABDet's reliability
and applicability to different templates and languages through an extensive set
of robustness checks.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)はNLPの主要な構成要素であるが、強い社会的バイアスを含んでいる。
これらのバイアスの定量化は、現在の方法が入力のわずかな変化に敏感であるため、難しい。
そこで本稿では, PLM におけるバイアス評価のための頑健な言語非依存手法である LABDet を提案する。
ケーススタディでは,非国籍感情検出において,凍結したPLM上の分類器をトレーニングすることで,LABDetの「表面」国籍バイアスが示される。
政治学者と共同で、歴史的・政治的文脈に沿った6つの言語で、モノリンガル PLM にまたがる民族性バイアスの一貫したパターンを見出す。
また,labdetが表わすバイアスは,事前学習データのバイアスとよく相関していることを示し,本研究は,事前学習データとplm行動を直接関連付ける数少ない研究の一つである。
最後に、LABDetの信頼性と異なるテンプレートや言語への適用性を、広範囲の堅牢性チェックを通じて検証する。
関連論文リスト
- What is Your Favorite Gender, MLM? Gender Bias Evaluation in Multilingual Masked Language Models [8.618945530676614]
本稿では,中国語,英語,ドイツ語,ポルトガル語,スペイン語の5言語から,多言語辞書の性別バイアスを推定する手法を提案する。
ジェンダーバイアスのより堅牢な分析のための文対を生成するために,新しいモデルに基づく手法を提案する。
以上の結果から,複数の評価指標をベストプラクティスとして用いた大規模データセットでは,性別バイアスを研究すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T21:12:08Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Evaluating Gender Bias of Pre-trained Language Models in Natural
Language Inference by Considering All Labels [42.89031347094013]
複数の言語を対象とした事前学習言語モデル(PLM)では、差別的な性バイアスが発見されている。
本稿では,自然言語推論タスクの3つのラベルをすべて考慮した PLM のバイアス評価手法を提案する。
日本語と中国語のNLIから評価データセットを作成し,PLMのバイアスを測定する。
論文 参考訳(メタデータ) (2023-09-18T12:02:21Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Gender Bias in Masked Language Models for Multiple Languages [31.528949172210233]
本稿では,英語属性単語リストと並列コーパスのみを用いて,様々な言語のバイアス評価を行うため,バイアス評価スコア(MBE)を提案する。
MBEを用いて8言語における偏見を評価し, 性別関連偏見がすべての言語に対して属性語にエンコードされていることを確認した。
論文 参考訳(メタデータ) (2022-05-01T20:19:14Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Unmasking Contextual Stereotypes: Measuring and Mitigating BERT's Gender
Bias [12.4543414590979]
文脈化された単語の埋め込みは、NLPシステムにおける標準的な埋め込みを置き換えている。
英語とドイツ語の専門職名と性別記述対象語との関係を調べた結果,性別バイアスを測定した。
偏見を測定する手法はドイツ語のような豊かでジェンダーの指標を持つ言語に適していることを示す。
論文 参考訳(メタデータ) (2020-10-27T18:06:09Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。