Fugu-MT 論文翻訳(概要): StereoSet: Measuring stereotypical bias in pretrained language models

論文の概要: StereoSet: Measuring stereotypical bias in pretrained language models

arxiv url: http://arxiv.org/abs/2004.09456v1
Date: Mon, 20 Apr 2020 17:14:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-11 17:44:35.741114
Title: StereoSet: Measuring stereotypical bias in pretrained language models
Title（参考訳）: StereoSet:事前学習言語モデルにおけるステレオタイプバイアスの測定
Authors: Moin Nadeem, Anna Bethke, Siva Reddy
Abstract要約: 我々は,4つの領域におけるステレオタイプバイアスを測定するために,英語の大規模自然データセットであるStereoSetを提案する。我々は,BERT,GPT-2,RoBERTa,XLNetなどの人気モデルをデータセット上で評価し,これらのモデルが強いステレオタイプバイアスを示すことを示す。
参考スコア（独自算出の注目度）: 24.020149562072127
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: A stereotype is an over-generalized belief about a particular group of people, e.g., Asians are good at math or Asians are bad drivers. Such beliefs (biases) are known to hurt target groups. Since pretrained language models are trained on large real world data, they are known to capture stereotypical biases. In order to assess the adverse effects of these models, it is important to quantify the bias captured in them. Existing literature on quantifying bias evaluates pretrained language models on a small set of artificially constructed bias-assessing sentences. We present StereoSet, a large-scale natural dataset in English to measure stereotypical biases in four domains: gender, profession, race, and religion. We evaluate popular models like BERT, GPT-2, RoBERTa, and XLNet on our dataset and show that these models exhibit strong stereotypical biases. We also present a leaderboard with a hidden test set to track the bias of future language models at https://stereoset.mit.edu
Abstract（参考訳）: ステレオタイプ(英: stereotype)とは、特定の集団についての過度に一般化された信念のことであり、例えば、アジア人は数学が得意で、アジア人は悪いドライバーである。このような信念(ビアース)は標的集団を傷つけることで知られる。事前訓練された言語モデルは、大規模な実世界データに基づいて訓練されているため、ステレオタイプバイアスを捉えることが知られている。これらのモデルの悪影響を評価するためには, 得られたバイアスの定量化が重要である。バイアスの定量化に関する既存の文献は、人工的に構築されたバイアス評価文の小さなセットで事前訓練された言語モデルを評価する。 StereoSetは、英語の大規模自然データセットで、性別、職業、人種、宗教の4つの領域におけるステレオタイプバイアスを測定する。我々は,BERT,GPT-2,RoBERTa,XLNetなどの人気モデルをデータセット上で評価し,これらのモデルが強いステレオタイプバイアスを示すことを示す。また、将来の言語モデルのバイアスを追跡する隠れたテストセットを持つリーダーボードをhttps://stereoset.mit.edu.com/で紹介する。

関連論文リスト

Dutch CrowS-Pairs: Adapting a Challenge Dataset for Measuring Social Biases in Language Models for Dutch [6.522338519818378]
オランダ語モデルにおけるバイアスを測定するための、米国固有のCrowS-Pairsデータセットのオランダ版が紹介されている。得られたデータセットは、性的指向、ジェンダー、障害などの9つのカテゴリのバイアスをカバーする1463の文ペアで構成されている。 CrowS-Pairsデータセットの英語版とフランス語版を使用して、英語(BERTとRoBERTa)とフランス語(FlauBERTとCamemBERT)でバイアスを評価した。
論文参考訳（メタデータ） (2025-07-22T10:38:02Z)
Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。 MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。 LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文参考訳（メタデータ） (2025-06-12T08:47:40Z)
Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.909363478929]
本研究では,権威ある情報源から収集した19の実世界統計に着目した。主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文参考訳（メタデータ） (2025-02-09T10:54:11Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
Who is better at math, Jenny or Jingzhen? Uncovering Stereotypes in Large Language Models [9.734705470760511]
我々はGlobalBiasを使って世界中の幅広いステレオタイプを研究しています。与えられた名前に基づいて文字プロファイルを生成し、モデル出力におけるステレオタイプの有効性を評価する。
論文参考訳（メタデータ） (2024-07-09T14:52:52Z)
Are Models Biased on Text without Gender-related Language? [14.931375031931386]
ステレオタイプフリーシナリオにおけるジェンダーバイアスを調査するための新しいフレームワークUnStereoEval(USE)を紹介する。 USEは事前学習データ統計に基づいて文レベルスコアを定義し、その文が単語と性別の関連が最小限であるかどうかを判定する。 28の試験モデルにおいて、偏見が低いことは、偏見が単にジェンダー関連の単語の存在に由来するものではないことを示唆している。
論文参考訳（メタデータ） (2024-05-01T15:51:15Z)
Stereotype Detection in LLMs: A Multiclass, Explainable, and Benchmark-Driven Approach [4.908389661988191]
本稿では, 性別, 人種, 職業, 宗教, その他のステレオタイプにまたがる51,867の事例からなるMulti-Grain Stereotype (MGS)データセットを提案する。我々は、さまざまな機械学習アプローチを評価し、異なるアーキテクチャと大きさのベースラインと微調整言語モデルを確立する。我々は、モデルが学習したパターンがステレオタイプに関する人間の直観と一致するかどうかを評価するために、SHAP、LIME、BertVizを含む説明可能なAI(XAI)ツールを採用する。
論文参考訳（メタデータ） (2024-04-02T09:31:32Z)
Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文参考訳（メタデータ） (2024-02-03T01:40:11Z)
Will the Prince Get True Love's Kiss? On the Model Sensitivity to Gender Perturbation over Fairytale Texts [87.62403265382734]
近年の研究では、伝統的な妖精は有害な性バイアスを伴っていることが示されている。本研究は,ジェンダーの摂動に対する頑健さを評価することによって,言語モデルの学習バイアスを評価することを目的とする。
論文参考訳（メタデータ） (2023-10-16T22:25:09Z)
Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文参考訳（メタデータ） (2023-01-31T20:09:33Z)
Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。テキスト生成における社会的バイアスを軽減するためのステップを提案する。我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文参考訳（メタデータ） (2021-06-24T17:52:43Z)
UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文参考訳（メタデータ） (2020-10-06T01:49:52Z)
CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models [30.582132471411263]
Crowd Stereotype Pairsベンチマーク(CrowS-Pairs)を紹介する。 CrowS-Pairsには1508の例があり、人種、宗教、年齢など9種類の偏見を扱うステレオタイプをカバーしている。その結果, CrowS-Pairs の各カテゴリーにおいて, 広く使われている3つの文のすべてが, 実質的にステレオタイプを好んでいることがわかった。
論文参考訳（メタデータ） (2020-09-30T22:38:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。