論文の概要: White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs
- arxiv url: http://arxiv.org/abs/2404.10508v5
- Date: Fri, 30 May 2025 22:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:42.703004
- Title: White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs
- Title(参考訳): 白人男性、黒人女性が助ける? LLMにおける言語機関の社会的バイアスのベンチマークと緩和
- Authors: Yixin Wan, Kai-Wei Chang,
- Abstract要約: 社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。
LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。
LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
- 参考スコア(独自算出の注目度): 58.27353205269664
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Social biases can manifest in language agency. However, very limited research has investigated such biases in Large Language Model (LLM)-generated content. In addition, previous works often rely on string-matching techniques to identify agentic and communal words within texts, falling short of accurately classifying language agency. We introduce the Language Agency Bias Evaluation (LABE) benchmark, which comprehensively evaluates biases in LLMs by analyzing agency levels attributed to different demographic groups in model generations. LABE tests for gender, racial, and intersectional language agency biases in LLMs on 3 text generation tasks: biographies, professor reviews, and reference letters. Using LABE, we unveil language agency social biases in 3 recent LLMs: ChatGPT, Llama3, and Mistral. We observe that: (1) LLM generations tend to demonstrate greater gender bias than human-written texts; (2) Models demonstrate remarkably higher levels of intersectional bias than the other bias aspects. (3) Prompt-based mitigation is unstable and frequently leads to bias exacerbation. Based on our observations, we propose Mitigation via Selective Rewrite (MSR), a novel bias mitigation strategy that leverages an agency classifier to identify and selectively revise parts of generated texts that demonstrate communal traits. Empirical results prove MSR to be more effective and reliable than prompt-based mitigation method, showing a promising research direction.
- Abstract(参考訳): 社会的偏見は言語機関に現れることがある。
しかし、LLM(Large Language Model)生成コンテンツにおけるそのようなバイアスについて、非常に限定的な研究がなされている。
さらに、以前の研究は、しばしばテキスト内のエージェント語とコミュニティブ語を識別する文字列マッチング技術に依存しており、言語エージェンシーを正確に分類するには足りていない。
本稿では,言語庁バイアス評価(LABE)ベンチマークについて紹介し,モデル世代における異なる集団集団に起因するエージェントレベルを分析し,LLMのバイアスを包括的に評価する。
LABEは3つのテキスト生成タスク(バイオグラフィー、教授のレビュー、参照レター)でLLMの性別、人種、および交叉言語機関のバイアスをテストする。
LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
1) LLM世代は人書きテキストよりも性差が大きい傾向があり, (2)モデルでは,他のバイアスよりも交叉バイアスが顕著に高い傾向を示した。
(3)プロンプトによる緩和は不安定であり、しばしばバイアスの悪化につながる。
提案手法は,選択的リライト(MSR)によるマイティゲーション(Mitigation)を提案する。これは,エージェント分類器を利用して,共生特性を示す生成テキストの一部を特定し,選択的に修正する新しいバイアス緩和戦略である。
実験により, MSRは即時緩和法よりも有効で信頼性が高く, 有望な研究方向を示すことが示された。
関連論文リスト
- LIBRA: Measuring Bias of Large Language Model from a Local Context [9.612845616659776]
大規模言語モデル(LLM)は、かなり高度な自然言語処理アプリケーションを持っている。
しかし、彼らの普及した利用は、特定の社会集団の実用性や害を減少させる固有のバイアスに関する懸念を提起する。
本研究は,これらの制約を,バイアス測定のためのローカル統合バイアス認識評価フレームワーク(LIBRA)を用いて解決する。
論文 参考訳(メタデータ) (2025-02-02T04:24:57Z) - Implicit Causality-biases in humans and LLMs as a tool for benchmarking LLM discourse capabilities [0.0]
モデルサイズの範囲にまたがる単言語LLMと多言語LLMで生成されたデータと、被験者が提供したデータとを比較した。
我々は,より一般的な談話理解能力のための堅牢なプロキシとして,談話バイアスを伴うLLMの能力を評価するためのベンチマークを開発することを目的とする。
論文 参考訳(メタデータ) (2025-01-22T16:07:24Z) - Gender Bias in LLM-generated Interview Responses [1.6124402884077915]
本研究は, モデル, 質問タイプ, 職種にまたがって, LLM生成面接応答の多面的監査を行うための3つのLCMを評価した。
その結果,男女の偏見は一貫しており,性別のステレオタイプや仕事の優位性と密接に一致していることが判明した。
論文 参考訳(メタデータ) (2024-10-28T05:08:08Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes [7.718858707298602]
大規模言語モデル(LLM)は、採用やレコメンデーションシステムなど、プロダクションパイプラインに広く統合されている。
本稿では、職業意思決定の文脈において、ジェンダーステレオタイプに関するLCMの行動について検討する。
論文 参考訳(メタデータ) (2024-05-06T18:09:32Z) - Gender Bias in Large Language Models across Multiple Languages [10.068466432117113]
異なる言語で生成される大言語モデル(LLM)の性別バイアスについて検討する。
1) 性別関連文脈から記述的単語を選択する際の性別バイアス。
2) 性別関連代名詞を選択する際の性別バイアスは, 記述語を付与する。
論文 参考訳(メタデータ) (2024-03-01T04:47:16Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Queer People are People First: Deconstructing Sexual Identity
Stereotypes in Large Language Models [3.974379576408554]
大規模言語モデル(LLM)は、主に最小処理のWebテキストに基づいて訓練される。
LLMはLGBTQIA+コミュニティのような、疎外されたグループに対して必然的にステレオタイプを永続させることができる。
論文 参考訳(メタデータ) (2023-06-30T19:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。