Fugu-MT 論文翻訳(概要): Bias Against 93 Stigmatized Groups in Masked Language Models and Downstream Sentiment Classification Tasks

論文の概要: Bias Against 93 Stigmatized Groups in Masked Language Models and Downstream Sentiment Classification Tasks

arxiv url: http://arxiv.org/abs/2306.05550v1
Date: Thu, 8 Jun 2023 20:46:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-12 15:37:34.718096
Title: Bias Against 93 Stigmatized Groups in Masked Language Models and Downstream Sentiment Classification Tasks
Title（参考訳）: マスキング言語モデルと下流感情分類課題における93のスティグマタイズドグループに対するバイアス
Authors: Katelyn X. Mei, Sonia Fereidooni, Aylin Caliskan
Abstract要約: 本研究は, 社会的汚職に対する偏見を大規模に検討することにより, 現存する作業における偏見評価の焦点を広げるものである。アメリカ合衆国では、病気、障害、薬物使用、精神疾患、宗教、セクシュアリティ、社会経済的地位、その他の関連要因に関する幅広い条件を含む93のスティグマタイズドグループに焦点を当てている。英語学習マスケッド言語モデル(MLM)におけるこれらのグループに対するバイアスとその下流感情分類タスクについて検討した。
参考スコア（独自算出の注目度）: 2.5690340428649323
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The rapid deployment of artificial intelligence (AI) models demands a thorough investigation of biases and risks inherent in these models to understand their impact on individuals and society. This study extends the focus of bias evaluation in extant work by examining bias against social stigmas on a large scale. It focuses on 93 stigmatized groups in the United States, including a wide range of conditions related to disease, disability, drug use, mental illness, religion, sexuality, socioeconomic status, and other relevant factors. We investigate bias against these groups in English pre-trained Masked Language Models (MLMs) and their downstream sentiment classification tasks. To evaluate the presence of bias against 93 stigmatized conditions, we identify 29 non-stigmatized conditions to conduct a comparative analysis. Building upon a psychology scale of social rejection, the Social Distance Scale, we prompt six MLMs: RoBERTa-base, RoBERTa-large, XLNet-large, BERTweet-base, BERTweet-large, and DistilBERT. We use human annotations to analyze the predicted words from these models, with which we measure the extent of bias against stigmatized groups. When prompts include stigmatized conditions, the probability of MLMs predicting negative words is approximately 20 percent higher than when prompts have non-stigmatized conditions. In the sentiment classification tasks, when sentences include stigmatized conditions related to diseases, disability, education, and mental illness, they are more likely to be classified as negative. We also observe a strong correlation between bias in MLMs and their downstream sentiment classifiers (r =0.79). The evidence indicates that MLMs and their downstream sentiment classification tasks exhibit biases against socially stigmatized groups.
Abstract（参考訳）: 人工知能(AI)モデルの迅速な展開は、個人や社会への影響を理解するために、これらのモデルに固有のバイアスやリスクを徹底的に調査する必要がある。本研究は,ソーシャル・スティグマに対するバイアスを大規模に検討することで,既存の作業におけるバイアス評価の焦点を広げるものである。アメリカ合衆国では、病気、障害、薬物使用、精神疾患、宗教、セクシュアリティ、社会経済的地位、その他の関連する要因に関する幅広い条件を含む93の悪名高いグループに焦点を当てている。英語学習マスケッド言語モデル(MLM)におけるこれらのグループに対するバイアスとその下流感情分類タスクについて検討した。 93のスティグマタイズド条件に対するバイアスの存在を評価するために,29の非スティグマタイズド条件を特定し,比較分析を行った。社会的拒絶の心理学的尺度である社会距離尺度に基づいて,RoBERTa-base,RoBERTa-large,XLNet-large,BERTweet-base,BERTweet-large,DistilBERTの6つのMLMを誘導する。人間のアノテーションを用いてこれらのモデルから予測された単語を解析し、分類されたグループに対するバイアスの程度を測定する。解答条件を含む場合、負の単語を予測するMLMの確率は、解答条件を持たない場合よりも約20%高い。感情分類タスクでは、文が病気、障害、教育、精神疾患に関連する便宜的条件を含む場合、それらが否定的に分類される可能性が高い。また,mlmsのバイアスと下流感情分類器(r=0.79)との相関も強く観察した。この証拠は、MDMとその下流感情分類タスクが、社会的に便宜的なグループに対する偏見を示すことを示している。

関連論文リスト

Interpretable Debiasing of Vision-Language Models for Social Fairness [55.85977929985967]
本稿では,視覚・言語モデルに社会的属性ニューロンを局在させる,解釈可能なモデルに依存しないバイアス緩和フレームワークDeBiasLensを紹介する。社会属性ラベルを含まない顔画像やキャプションデータセットでSAEを訓練し、特定の人口動態に高い応答性を持つニューロンを明らかにする。我々の研究は、未来の監査ツールの基礎を築き、新興の現実世界のAIシステムにおける社会的公正性を優先します。
論文参考訳（メタデータ） (2026-02-27T13:37:11Z)
Identifying Features Associated with Bias Against 93 Stigmatized Groups in Language Models and Guardrail Model Safety Mitigation [9.539495585692007]
広範に使用されている3つの大言語モデル(LLM)における93の分類群に対するバイアスを測定する。以上の結果から,ヒトのシグマはSocialStigmaQAのプロンプトから最も偏ったアウトプットを持つことが明らかとなった。バイアス軽減のためのガードレールモデルの改善に向けた今後の取り組みを提案する。
論文参考訳（メタデータ） (2025-12-22T10:20:20Z)
Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models [66.5536396328527]
LLMは必然的にトレーニングデータから急激な相関関係を吸収し、偏りのある概念と特定の社会的グループの間のステレオタイプ的関連をもたらす。ステレオタイプアソシエーションを中和するバイアス緩和フレームワークであるFairness Mediator (FairMed)を提案する。本フレームワークは, ステレオタイプアソシエーションプローバーと, 対向型デバイアス中和剤の2つの主成分からなる。
論文参考訳（メタデータ） (2025-04-10T14:23:06Z)
Navigating the Rabbit Hole: Emergent Biases in LLM-Generated Attack Narratives Targeting Mental Health Groups [20.07782545235038]
大規模言語モデル(LLM)によるリスクの高い集団に対する非挑発的標的攻撃の研究は、いまだに未調査である。本稿は,(1)高度に脆弱なメンタルヘルスグループに対するLSMによる攻撃の明示的評価,(2)相対バイアスの伝播を研究するネットワークベースの枠組み,(3)これらの攻撃から生じる相対的な攻撃の程度を評価すること,の3つの新しい貢献について述べる。
論文参考訳（メタデータ） (2025-04-08T15:56:57Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。 15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文参考訳（メタデータ） (2024-06-20T10:56:59Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。 StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文参考訳（メタデータ） (2024-06-14T15:41:06Z)
Seeds of Stereotypes: A Large-Scale Textual Analysis of Race and Gender Associations with Diseases in Online Sources [1.8259644946867188]
本研究は、人種や性別の指標とともに様々な疾患が議論される状況を分析した。その結果、人口統計学用語は、オンラインテキストの特定の疾患概念と不均等に関連していることがわかった。我々は、特定の人種的・性別的用語と分析された18の疾患の関連において、幅広い相違を見出した。
論文参考訳（メタデータ） (2024-05-08T13:38:56Z)
Detecting Bias in Large Language Models: Fine-tuned KcBERT [0.0]
我々は、このような害を社会的な偏見として定義し、韓国のコメントに微調整されたモデルで、民族、性別、人種的偏見を評価する。我々の貢献は、言語に依存した特徴により、韓国語モデルに社会的バイアスが存在することを示すことである。
論文参考訳（メタデータ） (2024-03-16T02:27:19Z)
SocialStigmaQA: A Benchmark to Uncover Stigma Amplification in Generative Language Models [8.211129045180636]
我々は、生成言語モデルにおいて、シュティグマを通して、社会的偏見の増幅を捉えるためのベンチマークを導入する。私たちのベンチマークであるSocialStigmaQAには、ソーシャルバイアスとモデル堅牢性の両方をテストするために慎重に構築された、さまざまなプロンプトスタイルの約10Kプロンプトが含まれています。社会的に偏りのあるアウトプットの割合は、様々なデコード戦略やスタイルにまたがって45%から59%の範囲であることがわかった。
論文参考訳（メタデータ） (2023-12-12T18:27:44Z)
Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文参考訳（メタデータ） (2023-11-15T16:35:59Z)
Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文参考訳（メタデータ） (2023-09-16T07:07:04Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)
Auditing Algorithmic Fairness in Machine Learning for Health with Severity-Based LOGAN [70.76142503046782]
臨床予測タスクにおいて,局所バイアスを自動検出するSLOGANを用いて,機械学習ベースの医療ツールを補足することを提案する。 LOGANは、患者の重症度と過去の医療史における集団バイアス検出を文脈化することにより、既存のツールであるLOcal Group biAs detectioNに適応する。 SLOGANは, クラスタリング品質を維持しながら, 患者群の75%以上において, SLOGANよりも高い公平性を示す。
論文参考訳（メタデータ） (2022-11-16T08:04:12Z)
Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。テキスト生成における社会的バイアスを軽減するためのステップを提案する。我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文参考訳（メタデータ） (2021-06-24T17:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。