Fugu-MT 論文翻訳(概要): White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs

論文の概要: White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs

arxiv url: http://arxiv.org/abs/2404.10508v5
Date: Fri, 30 May 2025 22:39:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 16:22:42.703004
Title: White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs
Title（参考訳）: 白人男性、黒人女性が助ける? LLMにおける言語機関の社会的バイアスのベンチマークと緩和
Authors: Yixin Wan, Kai-Wei Chang,
Abstract要約: 社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。 LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。 LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
参考スコア（独自算出の注目度）: 58.27353205269664
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Social biases can manifest in language agency. However, very limited research has investigated such biases in Large Language Model (LLM)-generated content. In addition, previous works often rely on string-matching techniques to identify agentic and communal words within texts, falling short of accurately classifying language agency. We introduce the Language Agency Bias Evaluation (LABE) benchmark, which comprehensively evaluates biases in LLMs by analyzing agency levels attributed to different demographic groups in model generations. LABE tests for gender, racial, and intersectional language agency biases in LLMs on 3 text generation tasks: biographies, professor reviews, and reference letters. Using LABE, we unveil language agency social biases in 3 recent LLMs: ChatGPT, Llama3, and Mistral. We observe that: (1) LLM generations tend to demonstrate greater gender bias than human-written texts; (2) Models demonstrate remarkably higher levels of intersectional bias than the other bias aspects. (3) Prompt-based mitigation is unstable and frequently leads to bias exacerbation. Based on our observations, we propose Mitigation via Selective Rewrite (MSR), a novel bias mitigation strategy that leverages an agency classifier to identify and selectively revise parts of generated texts that demonstrate communal traits. Empirical results prove MSR to be more effective and reliable than prompt-based mitigation method, showing a promising research direction.
Abstract（参考訳）: 社会的偏見は言語機関に現れることがある。しかし、LLM(Large Language Model)生成コンテンツにおけるそのようなバイアスについて、非常に限定的な研究がなされている。さらに、以前の研究は、しばしばテキスト内のエージェント語とコミュニティブ語を識別する文字列マッチング技術に依存しており、言語エージェンシーを正確に分類するには足りていない。本稿では,言語庁バイアス評価(LABE)ベンチマークについて紹介し,モデル世代における異なる集団集団に起因するエージェントレベルを分析し,LLMのバイアスを包括的に評価する。 LABEは3つのテキスト生成タスク(バイオグラフィー、教授のレビュー、参照レター)でLLMの性別、人種、および交叉言語機関のバイアスをテストする。 LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。 1) LLM世代は人書きテキストよりも性差が大きい傾向があり, (2)モデルでは,他のバイアスよりも交叉バイアスが顕著に高い傾向を示した。 (3)プロンプトによる緩和は不安定であり、しばしばバイアスの悪化につながる。提案手法は,選択的リライト(MSR)によるマイティゲーション(Mitigation)を提案する。これは,エージェント分類器を利用して,共生特性を示す生成テキストの一部を特定し,選択的に修正する新しいバイアス緩和戦略である。実験により, MSRは即時緩和法よりも有効で信頼性が高く, 有望な研究方向を示すことが示された。

関連論文リスト

An Empirical Investigation of Gender Stereotype Representation in Large Language Models: The Italian Case [0.41942958779358674]
本研究では,大規模言語モデルが無意味なプロンプトに対してどのように反応し,偏りのあるアウトプットに寄与するかを検討する。その結果、LCMが生成したコンテンツがステレオタイプを永続化する方法が明らかになった。 AI生成テキストにおけるバイアスの存在は、職場や仕事の選択など、多くの分野に重大な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2025-07-25T10:57:29Z)
LIBRA: Measuring Bias of Large Language Model from a Local Context [9.612845616659776]
大規模言語モデル(LLM)は、かなり高度な自然言語処理アプリケーションを持っている。しかし、彼らの普及した利用は、特定の社会集団の実用性や害を減少させる固有のバイアスに関する懸念を提起する。本研究は,これらの制約を,バイアス測定のためのローカル統合バイアス認識評価フレームワーク(LIBRA)を用いて解決する。
論文参考訳（メタデータ） (2025-02-02T04:24:57Z)
Implicit Causality-biases in humans and LLMs as a tool for benchmarking LLM discourse capabilities [0.0]
モデルサイズの範囲にまたがる単言語LLMと多言語LLMで生成されたデータと、被験者が提供したデータとを比較した。我々は,より一般的な談話理解能力のための堅牢なプロキシとして,談話バイアスを伴うLLMの能力を評価するためのベンチマークを開発することを目的とする。
論文参考訳（メタデータ） (2025-01-22T16:07:24Z)
Gender Bias in LLM-generated Interview Responses [1.6124402884077915]
本研究は, モデル, 質問タイプ, 職種にまたがって, LLM生成面接応答の多面的監査を行うための3つのLCMを評価した。その結果,男女の偏見は一貫しており,性別のステレオタイプや仕事の優位性と密接に一致していることが判明した。
論文参考訳（メタデータ） (2024-10-28T05:08:08Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文参考訳（メタデータ） (2024-06-27T19:26:11Z)
Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes [7.718858707298602]
大規模言語モデル(LLM)は、採用やレコメンデーションシステムなど、プロダクションパイプラインに広く統合されている。本稿では、職業意思決定の文脈において、ジェンダーステレオタイプに関するLCMの行動について検討する。
論文参考訳（メタデータ） (2024-05-06T18:09:32Z)
Gender Bias in Large Language Models across Multiple Languages [10.068466432117113]
異なる言語で生成される大言語モデル(LLM)の性別バイアスについて検討する。 1) 性別関連文脈から記述的単語を選択する際の性別バイアス。 2) 性別関連代名詞を選択する際の性別バイアスは, 記述語を付与する。
論文参考訳（メタデータ） (2024-03-01T04:47:16Z)
What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか? 本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文参考訳（メタデータ） (2023-11-30T18:53:13Z)
Probing Explicit and Implicit Gender Bias through LLM Conditional Text Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文参考訳（メタデータ） (2023-11-01T05:31:46Z)
"Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文参考訳（メタデータ） (2023-10-13T16:12:57Z)
Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文参考訳（メタデータ） (2023-09-16T07:07:04Z)
Queer People are People First: Deconstructing Sexual Identity Stereotypes in Large Language Models [3.974379576408554]
大規模言語モデル(LLM)は、主に最小処理のWebテキストに基づいて訓練される。 LLMはLGBTQIA+コミュニティのような、疎外されたグループに対して必然的にステレオタイプを永続させることができる。
論文参考訳（メタデータ） (2023-06-30T19:39:01Z)
Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。テキスト生成における社会的バイアスを軽減するためのステップを提案する。我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文参考訳（メタデータ） (2021-06-24T17:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。