論文の概要: With a Grain of SALT: Are LLMs Fair Across Social Dimensions?
- arxiv url: http://arxiv.org/abs/2410.12499v1
- Date: Wed, 16 Oct 2024 12:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:41.077514
- Title: With a Grain of SALT: Are LLMs Fair Across Social Dimensions?
- Title(参考訳): SALTの粒:LLMは社会次元を越えて公平か?
- Authors: Samee Arif, Zohaib Khan, Agha Ali Raza, Awais Athar,
- Abstract要約: 本稿では,オープンソースLarge Language Models (LLM) における様々な性別,宗教,人種間のバイアスの分析を行う。
一般討論,定位討論,キャリアアドバイザ,ストーリー生成,問題解決,カバーレタライティング,CV生成という,7つのバイアストリガを用いたバイアス検出データセットを生成する手法を提案する。
我々は, GPT-4o-mini を用いて各グループに関連付けられた LLM 生成テキストを匿名化し, GPT-4o-as-a-Judge を用いて相互比較を行う。
- 参考スコア(独自算出の注目度): 3.979019316355144
- License:
- Abstract: This paper presents an analysis of biases in open-source Large Language Models (LLMs) across various genders, religions, and races. We introduce a methodology for generating a bias detection dataset using seven bias triggers: General Debate, Positioned Debate, Career Advice, Story Generation, Problem-Solving, Cover-Letter Writing, and CV Generation. We use GPT-4o to generate a diverse set of prompts for each trigger across various genders, religious and racial groups. We evaluate models from Llama and Gemma family on the generated dataset. We anonymise the LLM-generated text associated with each group using GPT-4o-mini and do a pairwise comparison using GPT-4o-as-a-Judge. To quantify bias in the LLM-generated text we use the number of wins and losses in the pairwise comparison. Our analysis spans three languages, English, German, and Arabic to explore how language influences bias manifestation. Our findings reveal that LLMs exhibit strong polarization toward certain groups across each category, with a notable consistency observed across models. However, when switching languages, variations and anomalies emerge, often attributable to cultural cues and contextual differences.
- Abstract(参考訳): 本稿では,オープンソースLarge Language Models (LLM) における様々な性別,宗教,人種間のバイアスの分析を行う。
一般討論,定位討論,キャリアアドバイザ,ストーリー生成,問題解決,カバーレタライティング,CV生成という,7つのバイアストリガを用いたバイアス検出データセットを生成する手法を提案する。
我々は、GPT-4oを使用して、さまざまな性別、宗教、人種グループにまたがるトリガーごとに多様なプロンプトを生成する。
生成されたデータセットからLlamaとGemmaファミリーのモデルを評価する。
我々は, GPT-4o-mini を用いて各グループに関連付けられた LLM 生成テキストを匿名化し, GPT-4o-as-a-Judge を用いて相互比較を行う。
LLM生成テキストにおけるバイアスの定量化には、ペア比較における勝利数と損失数を用いる。
我々の分析は、3つの言語(英語、ドイツ語、アラビア語)にまたがって、言語が偏見の出現にどのように影響するかを探索する。
以上の結果から, LLMは各カテゴリーの特定のグループに対して強い偏極を示すことが明らかとなり, モデル間で顕著な一貫性が観察された。
しかし、言語を切り替えるとき、バリエーションや異常が出現し、しばしば文化的な手がかりや文脈の違いに起因する。
関連論文リスト
- Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models [15.53216696218776]
本稿では,大きな言語モデル(LLM)において,曖昧な比較プロンプトが提供される場合のバイアスの発生メカニズムについて検討する。
本稿では,LLMの特定の層にバイアスを局所化する手法である$textttATLAS$を提案する。
論文 参考訳(メタデータ) (2024-10-29T20:15:56Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models [12.12628747941818]
本稿では,Large Language Models (LLMs) における階層的ジェンダー採用バイアスのベンチマークを行うための新しいフレームワークを提案する。
我々は、労働経済学、法原則、現在のバイアスベンチマークの批判に根ざした新しい構成を導入する。
我々は、現在最先端の10のLCMにおける性別採用バイアスを分析する。
論文 参考訳(メタデータ) (2024-06-17T09:15:57Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Do Not Harm Protected Groups in Debiasing Language Representation Models [2.9057513016551244]
実世界のデータで訓練された言語表現モデル(LRM)は、望ましくないバイアスを捕捉し、悪化させる可能性がある。
実世界のテキスト分類タスクにおいて, 4つのデバイアス化手法について検討し, 全ての人口集団において, バイアスの低減が性能低下の犠牲となることを示す。
論文 参考訳(メタデータ) (2023-10-27T20:11:38Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。