論文の概要: Towards WinoQueer: Developing a Benchmark for Anti-Queer Bias in Large
Language Models
- arxiv url: http://arxiv.org/abs/2206.11484v1
- Date: Thu, 23 Jun 2022 05:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 23:24:48.525772
- Title: Towards WinoQueer: Developing a Benchmark for Anti-Queer Bias in Large
Language Models
- Title(参考訳): winoqueerに向けて - 大規模言語モデルにおける反クエリバイアスのベンチマークの開発
- Authors: Virginia K. Felkner, Ho-Chun Herbert Chang, Eugene Jang, Jonathan May
- Abstract要約: 本稿では,BERTのような大規模言語モデル(LLM)において,キーアやトランス人に対する偏見がどの程度符号化されているかについて,探索的研究を行う。
アンチクェアバイアスを測定するために、他のバイアス検出ベンチマークをモデルとした新しいベンチマークデータセットWinoQueerを導入し、ホモフォビックバイアスとトランスフォビックバイアスに対処する。
LGBTQ+ コミュニティのメンバーによって書かれた自然言語コーパス上で BERT を微調整することにより,このバイアスを緩和することができることがわかった。
- 参考スコア(独自算出の注目度): 18.922402889762488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents exploratory work on whether and to what extent biases
against queer and trans people are encoded in large language models (LLMs) such
as BERT. We also propose a method for reducing these biases in downstream
tasks: finetuning the models on data written by and/or about queer people. To
measure anti-queer bias, we introduce a new benchmark dataset, WinoQueer,
modeled after other bias-detection benchmarks but addressing homophobic and
transphobic biases. We found that BERT shows significant homophobic bias, but
this bias can be mostly mitigated by finetuning BERT on a natural language
corpus written by members of the LGBTQ+ community.
- Abstract(参考訳): 本稿では,queer や trans に対するバイアスが bert のような大規模言語モデル (llm) にどのようにコード化されているか,その程度について検討する。
また、下流タスクにおけるこれらのバイアスを減らす方法を提案する。
そこで我々は,新しいベンチマークデータセットであるwinoqueerを,他のバイアス検出ベンチマークをモデルとし,ホモフォビアバイアスとトランスフォビアバイアスを扱いながら導入する。
LGBTQ+ コミュニティのメンバーによって書かれた自然言語コーパス上で BERT を微調整することにより,このバイアスを緩和することができることがわかった。
関連論文リスト
- What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - WinoQueer: A Community-in-the-Loop Benchmark for Anti-LGBTQ+ Bias in Large Language Models [29.773734878738264]
WinoQueerは、大きな言語モデル(LLM)がLGBTQ+コミュニティに有害なバイアスをエンコードするかどうかを測定するために設計されたベンチマークである。
我々はこのベンチマークをいくつかの人気のあるLCMに適用し、オフザシェルフモデルが一般に相当なアンチキーバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-26T22:07:33Z) - Keeping Up with the Language Models: Systematic Benchmark Extension for Bias Auditing [33.25539075550122]
我々は, LM生成語彙変動, 逆フィルタリング, 人間の検証を組み合わせることで, 既存のNLIのバイアスベンチマークを拡張した。
BBNLI-nextは最先端のNLIモデルの精度を95.3%から57.5%に下げることを示した。
バイアスとモデル脆性の両方を考慮したバイアス対策を提案する。
論文 参考訳(メタデータ) (2023-05-22T01:02:45Z) - Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous
Pronouns [53.62845317039185]
バイアス測定データセットは、言語モデルのバイアスされた振る舞いを検出する上で重要な役割を果たす。
本稿では, 多様な, 自然な, 最小限のテキストペアを, 対物生成によって収集する新しい手法を提案する。
事前学習された4つの言語モデルは、各グループ内よりも、異なる性別グループ間でかなり不整合であることを示す。
論文 参考訳(メタデータ) (2023-02-11T12:11:03Z) - Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias [33.99768156365231]
生成言語モデルにおけるバイアス測定のための因果的定式化を導入する。
我々はOccuGenderというベンチマークを提案し、職業性バイアスを調査するためのバイアス測定手法を提案する。
以上の結果から,これらのモデルでは職業性バイアスがかなり大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z) - The Tail Wagging the Dog: Dataset Construction Biases of Social Bias
Benchmarks [75.58692290694452]
社会的偏見と、データセット構築時に選択された選択から生じる非社会的偏見を比較し、人間の目では識別できないかもしれない。
これらの浅い修正は、様々なモデルにまたがるバイアスの程度に驚くべき影響を及ぼす。
論文 参考訳(メタデータ) (2022-10-18T17:58:39Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Stereotype and Skew: Quantifying Gender Bias in Pre-trained and
Fine-tuned Language Models [5.378664454650768]
本稿では,文脈言語モデルにおける性別バイアスの定量化と分析を行う,スキューとステレオタイプという2つの直感的な指標を提案する。
性別のステレオタイプは、アウト・オブ・ボックスモデルにおける性別の歪とほぼ負の相関関係にあり、これらの2種類のバイアスの間にトレードオフが存在することを示唆している。
論文 参考訳(メタデータ) (2021-01-24T10:57:59Z) - Unmasking Contextual Stereotypes: Measuring and Mitigating BERT's Gender
Bias [12.4543414590979]
文脈化された単語の埋め込みは、NLPシステムにおける標準的な埋め込みを置き換えている。
英語とドイツ語の専門職名と性別記述対象語との関係を調べた結果,性別バイアスを測定した。
偏見を測定する手法はドイツ語のような豊かでジェンダーの指標を持つ言語に適していることを示す。
論文 参考訳(メタデータ) (2020-10-27T18:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。