論文の概要: WinoQueer: A Community-in-the-Loop Benchmark for Anti-LGBTQ+ Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2306.15087v2
- Date: Thu, 17 Oct 2024 19:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:23:32.423163
- Title: WinoQueer: A Community-in-the-Loop Benchmark for Anti-LGBTQ+ Bias in Large Language Models
- Title(参考訳): WinoQueer: 大規模言語モデルにおける反LGBTQ+バイアスのためのコミュニティ・イン・ザ・ループベンチマーク
- Authors: Virginia K. Felkner, Ho-Chun Herbert Chang, Eugene Jang, Jonathan May,
- Abstract要約: WinoQueerは、大きな言語モデル(LLM)がLGBTQ+コミュニティに有害なバイアスをエンコードするかどうかを測定するために設計されたベンチマークである。
我々はこのベンチマークをいくつかの人気のあるLCMに適用し、オフザシェルフモデルが一般に相当なアンチキーバイアスを示すことを発見した。
- 参考スコア(独自算出の注目度): 29.773734878738264
- License:
- Abstract: We present WinoQueer: a benchmark specifically designed to measure whether large language models (LLMs) encode biases that are harmful to the LGBTQ+ community. The benchmark is community-sourced, via application of a novel method that generates a bias benchmark from a community survey. We apply our benchmark to several popular LLMs and find that off-the-shelf models generally do exhibit considerable anti-queer bias. Finally, we show that LLM bias against a marginalized community can be somewhat mitigated by finetuning on data written about or by members of that community, and that social media text written by community members is more effective than news text written about the community by non-members. Our method for community-in-the-loop benchmark development provides a blueprint for future researchers to develop community-driven, harms-grounded LLM benchmarks for other marginalized communities. Note: This version corrects a bug found in evaluation code after publication. General findings have not changed, but tables 5 and 6 and figure 1 have been corrected.
- Abstract(参考訳): WinoQueerは、LGBTQ+コミュニティにとって有害なバイアスを、大規模言語モデル(LLM)がエンコードするかどうかを測定するために設計されたベンチマークである。
ベンチマークはコミュニティソースであり、コミュニティ調査からバイアスベンチマークを生成する新しい手法を適用している。
我々はこのベンチマークをいくつかの人気のあるLCMに適用し、オフザシェルフモデルが一般に相当なアンチキーバイアスを示すことを発見した。
そして,コミュニティメンバーが作成したソーシャル・メディア・テキストは,非メンバーが作成したニュース・テキストよりも有効であることを示す。
コミュニティ・イン・ザ・ループ・ベンチマーク開発のための手法は、将来の研究者が他の辺境化コミュニティ向けにコミュニティ主導の有害なLLMベンチマークを開発するための青写真を提供する。
注: このバージョンは、公開後の評価コードにあるバグを修正します。
一般的な発見は変わっていないが、表5と表6と表1が修正されている。
関連論文リスト
- A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits [92.62157408704594]
HelloFreshは、本質的に動機づけられた人間のラベルによって生成された実世界のデータの連続的なストリームに基づいている。
ウィキペディアページのX(元Twitter)コミュニティノートと編集の最近のイベントをカバーしている。
テストデータの汚染とベンチマークオーバーフィッティングのリスクを軽減します。
論文 参考訳(メタデータ) (2024-06-05T16:25:57Z) - GPT is Not an Annotator: The Necessity of Human Annotation in Fairness Benchmark Construction [25.17740839996496]
本稿では,GPT-3.5-Turboがバイアスベンチマークデータセットの開発に有効かどうかを検討する。
我々は、以前の研究をユダヤ人コミュニティと反ユダヤ主義という、新しいコミュニティと一連の偏見に拡張する。
分析の結果,GPT-3.5-Turboはアノテーション処理の性能が悪く,出力に許容できない品質問題が発生することがわかった。
論文 参考訳(メタデータ) (2024-05-24T17:56:03Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - Queer People are People First: Deconstructing Sexual Identity
Stereotypes in Large Language Models [3.974379576408554]
大規模言語モデル(LLM)は、主に最小処理のWebテキストに基づいて訓練される。
LLMはLGBTQIA+コミュニティのような、疎外されたグループに対して必然的にステレオタイプを永続させることができる。
論文 参考訳(メタデータ) (2023-06-30T19:39:01Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for
Text Generation [89.41378346080603]
この研究は、PLMに基づくメトリクスにおける社会バイアスに関する最初の体系的研究である。
PLMをベースとした一般的な指標は,従来の6つの属性の指標よりも社会的偏見が著しく高いことが実証された。
さらに, PLM層に注入される脱バイアスアダプタを開発し, テキスト生成の評価に高い性能を維持しながら, PLMベースのメトリクスのバイアスを軽減する。
論文 参考訳(メタデータ) (2022-10-14T08:24:11Z) - Towards WinoQueer: Developing a Benchmark for Anti-Queer Bias in Large
Language Models [18.922402889762488]
本稿では,BERTのような大規模言語モデル(LLM)において,キーアやトランス人に対する偏見がどの程度符号化されているかについて,探索的研究を行う。
アンチクェアバイアスを測定するために、他のバイアス検出ベンチマークをモデルとした新しいベンチマークデータセットWinoQueerを導入し、ホモフォビックバイアスとトランスフォビックバイアスに対処する。
LGBTQ+ コミュニティのメンバーによって書かれた自然言語コーパス上で BERT を微調整することにより,このバイアスを緩和することができることがわかった。
論文 参考訳(メタデータ) (2022-06-23T05:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。