論文の概要: SocialStigmaQA: A Benchmark to Uncover Stigma Amplification in
Generative Language Models
- arxiv url: http://arxiv.org/abs/2312.07492v4
- Date: Wed, 27 Dec 2023 22:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 21:21:50.435728
- Title: SocialStigmaQA: A Benchmark to Uncover Stigma Amplification in
Generative Language Models
- Title(参考訳): socialstigmaqa: 生成言語モデルにおけるstigmaの増幅を示すベンチマーク
- Authors: Manish Nagireddy, Lamogha Chiazor, Moninder Singh, Ioana Baldini
- Abstract要約: 我々は、生成言語モデルにおいて、シュティグマを通して、社会的偏見の増幅を捉えるためのベンチマークを導入する。
私たちのベンチマークであるSocialStigmaQAには、ソーシャルバイアスとモデル堅牢性の両方をテストするために慎重に構築された、さまざまなプロンプトスタイルの約10Kプロンプトが含まれています。
社会的に偏りのあるアウトプットの割合は、様々なデコード戦略やスタイルにまたがって45%から59%の範囲であることがわかった。
- 参考スコア(独自算出の注目度): 8.211129045180636
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current datasets for unwanted social bias auditing are limited to studying
protected demographic features such as race and gender. In this work, we
introduce a comprehensive benchmark that is meant to capture the amplification
of social bias, via stigmas, in generative language models. Taking inspiration
from social science research, we start with a documented list of 93 US-centric
stigmas and curate a question-answering (QA) dataset which involves simple
social situations. Our benchmark, SocialStigmaQA, contains roughly 10K prompts,
with a variety of prompt styles, carefully constructed to systematically test
for both social bias and model robustness. We present results for
SocialStigmaQA with two open source generative language models and we find that
the proportion of socially biased output ranges from 45% to 59% across a
variety of decoding strategies and prompting styles. We demonstrate that the
deliberate design of the templates in our benchmark (e.g., adding biasing text
to the prompt or using different verbs that change the answer that indicates
bias) impacts the model tendencies to generate socially biased output.
Additionally, through manual evaluation, we discover problematic patterns in
the generated chain-of-thought output that range from subtle bias to lack of
reasoning.
Warning: This paper contains examples of text which are toxic, biased, and
potentially harmful.
- Abstract(参考訳): 望ましくない社会的偏見監査のための現在のデータセットは、人種や性別などの保護された人口動態の研究に限られている。
本研究では,遺伝的言語モデルにおけるシュティグマを通して,社会的偏見の増幅を捉えるための総合的なベンチマークを導入する。
社会科学研究からインスピレーションを得て、93の米国中心のスティグマのリストから始め、単純な社会的状況を含む質問回答データセット(QA)をキュレートする。
私たちのベンチマークであるSocialStigmaQAには、ソーシャルバイアスとモデルロバストネスの両方を体系的にテストするために、さまざまなプロンプトスタイルの約10Kプロンプトが含まれています。
そこで我々は,SocialStigmaQAを2つのオープンソース生成言語モデルで比較した結果,社会的に偏りのあるアウトプットの割合は,様々なデコード戦略やスタイルのプロンプトにおいて45%から59%であることがわかった。
ベンチマークにおけるテンプレートの意図的な設計(例えば、プロンプトにバイアステキストの追加や、バイアスを示す回答を変更する異なる動詞の使用)は、モデルに偏りのあるアウトプットを生成する傾向に影響を与えることを実証します。
さらに,手作業による評価を通じて,微妙なバイアスから推論の欠如まで,生成する思考連鎖アウトプットに問題のあるパターンを見出す。
警告: 本論文は有害で偏りがあり、潜在的に有害なテキストの例を含む。
関連論文リスト
- VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Probing Intersectional Biases in Vision-Language Models with
Counterfactual Examples [5.870913541790421]
我々は、テキスト・ツー・イメージ拡散モデルを用いて、大規模に侵入する社会的バイアスを探索する対実例を作成する。
提案手法では,安定拡散とクロスアテンション制御を用いて,対実的画像とテキストのペアのセットを生成する。
我々は、最先端のVLMに存在する交叉社会的バイアスを明らかにするために、生成されたデータセットを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2023-10-04T17:25:10Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models [73.29106813131818]
テスト文は限られた手動テンプレートから生成されるか、高価なクラウドソーシングを必要とするため、現時点ではバイアステストは煩雑である。
ソーシャルグループと属性の任意のユーザ指定の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。
本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
論文 参考訳(メタデータ) (2023-02-14T22:07:57Z) - The Tail Wagging the Dog: Dataset Construction Biases of Social Bias
Benchmarks [75.58692290694452]
社会的偏見と、データセット構築時に選択された選択から生じる非社会的偏見を比較し、人間の目では識別できないかもしれない。
これらの浅い修正は、様々なモデルにまたがるバイアスの程度に驚くべき影響を及ぼす。
論文 参考訳(メタデータ) (2022-10-18T17:58:39Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - BBQ: A Hand-Built Bias Benchmark for Question Answering [25.108222728383236]
NLPモデルは、世界に存在する社会的バイアスを学習することは十分に文書化されているが、これらのバイアスが、質問応答(QA)のような適用されたタスクに対して、実際のモデルアウトプットにどのように現れるかを示す研究はほとんど行われていない。
筆者らによって構築された質問セットからなるデータセットであるBias Benchmark for QA (BBQ)を導入し、米国英語の文脈に関連する9つの異なる社会的次元に沿って、保護されたクラスに属する人々に対するテキストテストされた社会的偏見を強調した。
文脈が曖昧であるとき、モデルはステレオタイプに強く依存していることが分かり、つまり、モデルの出力は、この設定において有害なバイアスを一貫して再現する。
論文 参考訳(メタデータ) (2021-10-15T16:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。