論文の概要: WinoQueer: A Community-in-the-Loop Benchmark for Anti-LGBTQ+ Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2306.15087v2
- Date: Thu, 17 Oct 2024 19:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:23:32.423163
- Title: WinoQueer: A Community-in-the-Loop Benchmark for Anti-LGBTQ+ Bias in Large Language Models
- Title(参考訳): WinoQueer: 大規模言語モデルにおける反LGBTQ+バイアスのためのコミュニティ・イン・ザ・ループベンチマーク
- Authors: Virginia K. Felkner, Ho-Chun Herbert Chang, Eugene Jang, Jonathan May,
- Abstract要約: WinoQueerは、大きな言語モデル(LLM)がLGBTQ+コミュニティに有害なバイアスをエンコードするかどうかを測定するために設計されたベンチマークである。
我々はこのベンチマークをいくつかの人気のあるLCMに適用し、オフザシェルフモデルが一般に相当なアンチキーバイアスを示すことを発見した。
- 参考スコア(独自算出の注目度): 29.773734878738264
- License:
- Abstract: We present WinoQueer: a benchmark specifically designed to measure whether large language models (LLMs) encode biases that are harmful to the LGBTQ+ community. The benchmark is community-sourced, via application of a novel method that generates a bias benchmark from a community survey. We apply our benchmark to several popular LLMs and find that off-the-shelf models generally do exhibit considerable anti-queer bias. Finally, we show that LLM bias against a marginalized community can be somewhat mitigated by finetuning on data written about or by members of that community, and that social media text written by community members is more effective than news text written about the community by non-members. Our method for community-in-the-loop benchmark development provides a blueprint for future researchers to develop community-driven, harms-grounded LLM benchmarks for other marginalized communities. Note: This version corrects a bug found in evaluation code after publication. General findings have not changed, but tables 5 and 6 and figure 1 have been corrected.
- Abstract(参考訳): WinoQueerは、LGBTQ+コミュニティにとって有害なバイアスを、大規模言語モデル(LLM)がエンコードするかどうかを測定するために設計されたベンチマークである。
ベンチマークはコミュニティソースであり、コミュニティ調査からバイアスベンチマークを生成する新しい手法を適用している。
我々はこのベンチマークをいくつかの人気のあるLCMに適用し、オフザシェルフモデルが一般に相当なアンチキーバイアスを示すことを発見した。
そして,コミュニティメンバーが作成したソーシャル・メディア・テキストは,非メンバーが作成したニュース・テキストよりも有効であることを示す。
コミュニティ・イン・ザ・ループ・ベンチマーク開発のための手法は、将来の研究者が他の辺境化コミュニティ向けにコミュニティ主導の有害なLLMベンチマークを開発するための青写真を提供する。
注: このバージョンは、公開後の評価コードにあるバグを修正します。
一般的な発見は変わっていないが、表5と表6と表1が修正されている。
関連論文リスト
- VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - COMMUNITY-CROSS-INSTRUCT: Unsupervised Instruction Generation for Aligning Large Language Models to Online Communities [5.0261645603931475]
Community-Cross-Instructは、大規模言語モデルをオンラインコミュニティに整合させる、教師なしのフレームワークである。
完全に教師なしの方法で命令を生成し、拡張性とドメイン間の一般化を向上する。
この作業により、様々なオンラインコミュニティの費用対効果と自動調査が可能になる。
論文 参考訳(メタデータ) (2024-06-17T20:20:47Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Queer People are People First: Deconstructing Sexual Identity
Stereotypes in Large Language Models [3.974379576408554]
大規模言語モデル(LLM)は、主に最小処理のWebテキストに基づいて訓練される。
LLMはLGBTQIA+コミュニティのような、疎外されたグループに対して必然的にステレオタイプを永続させることができる。
論文 参考訳(メタデータ) (2023-06-30T19:39:01Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for
Text Generation [89.41378346080603]
この研究は、PLMに基づくメトリクスにおける社会バイアスに関する最初の体系的研究である。
PLMをベースとした一般的な指標は,従来の6つの属性の指標よりも社会的偏見が著しく高いことが実証された。
さらに, PLM層に注入される脱バイアスアダプタを開発し, テキスト生成の評価に高い性能を維持しながら, PLMベースのメトリクスのバイアスを軽減する。
論文 参考訳(メタデータ) (2022-10-14T08:24:11Z) - A Keyword Based Approach to Understanding the Overpenalization of
Marginalized Groups by English Marginal Abuse Models on Twitter [2.9604738405097333]
有害なコンテンツ検出モデルは、疎外されたグループからのコンテンツに対する偽陽性率が高い傾向にある。
テキストベースモデルに関連付けられた潜在的害の重症度を検出・測定するための原則的アプローチを提案する。
提案手法を適用して,Twitterの英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・日本語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語
論文 参考訳(メタデータ) (2022-10-07T20:28:00Z) - Towards WinoQueer: Developing a Benchmark for Anti-Queer Bias in Large
Language Models [18.922402889762488]
本稿では,BERTのような大規模言語モデル(LLM)において,キーアやトランス人に対する偏見がどの程度符号化されているかについて,探索的研究を行う。
アンチクェアバイアスを測定するために、他のバイアス検出ベンチマークをモデルとした新しいベンチマークデータセットWinoQueerを導入し、ホモフォビックバイアスとトランスフォビックバイアスに対処する。
LGBTQ+ コミュニティのメンバーによって書かれた自然言語コーパス上で BERT を微調整することにより,このバイアスを緩和することができることがわかった。
論文 参考訳(メタデータ) (2022-06-23T05:30:47Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。