論文の概要: WinoQueer: A Community-in-the-Loop Benchmark for Anti-LGBTQ+ Bias in
Large Language Models
- arxiv url: http://arxiv.org/abs/2306.15087v1
- Date: Mon, 26 Jun 2023 22:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 15:17:39.310099
- Title: WinoQueer: A Community-in-the-Loop Benchmark for Anti-LGBTQ+ Bias in
Large Language Models
- Title(参考訳): WinoQueer: 大規模言語モデルにおけるLGBTQ+アンチバイアスのコミュニティ間ベンチマーク
- Authors: Virginia K. Felkner, Ho-Chun Herbert Chang, Eugene Jang, Jonathan May
- Abstract要約: WinoQueerは、大きな言語モデル(LLM)がLGBTQ+コミュニティに有害なバイアスをエンコードするかどうかを測定するために設計されたベンチマークである。
我々はこのベンチマークをいくつかの人気のあるLCMに適用し、オフザシェルフモデルが一般に相当なアンチキーバイアスを示すことを発見した。
- 参考スコア(独自算出の注目度): 18.922402889762488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present WinoQueer: a benchmark specifically designed to measure whether
large language models (LLMs) encode biases that are harmful to the LGBTQ+
community. The benchmark is community-sourced, via application of a novel
method that generates a bias benchmark from a community survey. We apply our
benchmark to several popular LLMs and find that off-the-shelf models generally
do exhibit considerable anti-queer bias. Finally, we show that LLM bias against
a marginalized community can be somewhat mitigated by finetuning on data
written about or by members of that community, and that social media text
written by community members is more effective than news text written about the
community by non-members. Our method for community-in-the-loop benchmark
development provides a blueprint for future researchers to develop
community-driven, harms-grounded LLM benchmarks for other marginalized
communities.
- Abstract(参考訳): winoqueer: 大きな言語モデル(llm)がlgbtq+コミュニティに有害なバイアスを符号化するかどうかを測定するために特別に設計されたベンチマークです。
ベンチマークはコミュニティソースであり、コミュニティ調査からバイアスベンチマークを生成する新しい手法を適用している。
我々はこのベンチマークをいくつかの人気のあるLCMに適用し、オフザシェルフモデルが一般にかなりのアンチキーバイアスを示すことを発見した。
最後に,コミュニティのメンバに関するデータや,コミュニティのメンバによるデータの微調整によって,コミュニティに対するllmバイアスを緩和できることを示すとともに,コミュニティのメンバによるソーシャルメディアテキストは,非メンバによるコミュニティに関するニューステキストよりも効果的であることを示す。
コミュニティ・イン・ザ・ループのベンチマーク開発手法は、将来の研究者がコミュニティ主導で有害なllmベンチマークを開発するための青写真を提供する。
関連論文リスト
- GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Queer People are People First: Deconstructing Sexual Identity
Stereotypes in Large Language Models [3.974379576408554]
大規模言語モデル(LLM)は、主に最小処理のWebテキストに基づいて訓練される。
LLMはLGBTQIA+コミュニティのような、疎外されたグループに対して必然的にステレオタイプを永続させることができる。
論文 参考訳(メタデータ) (2023-06-30T19:39:01Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for
Text Generation [89.41378346080603]
この研究は、PLMに基づくメトリクスにおける社会バイアスに関する最初の体系的研究である。
PLMをベースとした一般的な指標は,従来の6つの属性の指標よりも社会的偏見が著しく高いことが実証された。
さらに, PLM層に注入される脱バイアスアダプタを開発し, テキスト生成の評価に高い性能を維持しながら, PLMベースのメトリクスのバイアスを軽減する。
論文 参考訳(メタデータ) (2022-10-14T08:24:11Z) - A Keyword Based Approach to Understanding the Overpenalization of
Marginalized Groups by English Marginal Abuse Models on Twitter [2.9604738405097333]
有害なコンテンツ検出モデルは、疎外されたグループからのコンテンツに対する偽陽性率が高い傾向にある。
テキストベースモデルに関連付けられた潜在的害の重症度を検出・測定するための原則的アプローチを提案する。
提案手法を適用して,Twitterの英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・日本語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語
論文 参考訳(メタデータ) (2022-10-07T20:28:00Z) - Towards WinoQueer: Developing a Benchmark for Anti-Queer Bias in Large
Language Models [18.922402889762488]
本稿では,BERTのような大規模言語モデル(LLM)において,キーアやトランス人に対する偏見がどの程度符号化されているかについて,探索的研究を行う。
アンチクェアバイアスを測定するために、他のバイアス検出ベンチマークをモデルとした新しいベンチマークデータセットWinoQueerを導入し、ホモフォビックバイアスとトランスフォビックバイアスに対処する。
LGBTQ+ コミュニティのメンバーによって書かれた自然言語コーパス上で BERT を微調整することにより,このバイアスを緩和することができることがわかった。
論文 参考訳(メタデータ) (2022-06-23T05:30:47Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。