論文の概要: With a Grain of SALT: Are LLMs Fair Across Social Dimensions?
- arxiv url: http://arxiv.org/abs/2410.12499v2
- Date: Tue, 18 Feb 2025 08:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 15:46:50.264627
- Title: With a Grain of SALT: Are LLMs Fair Across Social Dimensions?
- Title(参考訳): SALTの粒:LLMは社会次元を越えて公平か?
- Authors: Samee Arif, Zohaib Khan, Maaidah Kaleem, Suhaib Rashid, Agha Ali Raza, Awais Athar,
- Abstract要約: 本稿では,ジェンダー,宗教,人種にまたがるオープンソースのLarge Language Models(LLM)におけるバイアスの系統的分析について述べる。
私たちはSALTデータセットを使用して,General Debate, positioned Debate, Career Advice, Problem Solving, CV Generationという,5つの異なるバイアストリガを組み込んでいます。
以上の結果から, モデル間で一貫した分極が明らかとなり, 組織的に好意的あるいは好ましくない治療を受ける集団が存在する。
- 参考スコア(独自算出の注目度): 3.5001789247699535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a systematic analysis of biases in open-source Large Language Models (LLMs), across gender, religion, and race. Our study evaluates bias in smaller-scale Llama and Gemma models using the SALT ($\textbf{S}$ocial $\textbf{A}$ppropriateness in $\textbf{L}$LM-Generated $\textbf{T}$ext) dataset, which incorporates five distinct bias triggers: General Debate, Positioned Debate, Career Advice, Problem Solving, and CV Generation. To quantify bias, we measure win rates in General Debate and the assignment of negative roles in Positioned Debate. For real-world use cases, such as Career Advice, Problem Solving, and CV Generation, we anonymize the outputs to remove explicit demographic identifiers and use DeepSeek-R1 as an automated evaluator. We also address inherent biases in LLM-based evaluation, including evaluation bias, positional bias, and length bias, and validate our results through human evaluations. Our findings reveal consistent polarization across models, with certain demographic groups receiving systematically favorable or unfavorable treatment. By introducing SALT, we provide a comprehensive benchmark for bias analysis and underscore the need for robust bias mitigation strategies in the development of equitable AI systems.
- Abstract(参考訳): 本稿では,ジェンダー,宗教,人種にまたがる,オープンソースのLarge Language Models (LLM) におけるバイアスの体系的分析について述べる。
我々は,SALT$\textbf{S}$ocial $\textbf{A}$ppropriateness in $\textbf{L}$LM-Generated $\textbf{T}$ext) データセットを用いて,小型のLlamaとGemmaモデルのバイアスを評価する。
偏見を定量化するために、一般討論における勝利率と位置討論における負の役割の割り当てを測る。
キャリアアドバイザや問題解決,CV生成といった実世界のユースケースでは,明示的な人口統計識別子を削除するためにアウトプットを匿名化し,DeepSeek-R1を自動評価器として使用します。
また, 評価バイアス, 位置偏差, 長さ偏差など, LLMに基づく評価に固有のバイアスに対処し, 人間の評価による評価を行った。
以上の結果から,モデル間で一貫した偏極が明らかとなり,一部の集団は体系的に好ましくない治療を受けていた。
SALTを導入することで、バイアス分析のための包括的なベンチマークを提供し、公平なAIシステムの開発において、堅牢なバイアス軽減戦略の必要性を浮き彫りにします。
関連論文リスト
- Rethinking Prompt-based Debiasing in Large Language Models [40.90578215191079]
大規模言語モデル(LLM)におけるバイアスの調査は、信頼できるAIを開発する上で不可欠である。
即発的なエンジニアリングは一般的であるが、その効果はモデルがバイアスを本質的に理解しているという仮定に依存している。
本研究では,BBQ と StereoSet のベンチマークを用いて,オープンソースモデルと商用 GPT モデルの両方を用いて,この仮定を体系的に解析した。
論文 参考訳(メタデータ) (2025-03-12T10:06:03Z) - Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models [15.53216696218776]
本稿では,大きな言語モデル(LLM)において,曖昧な比較プロンプトが提供される場合のバイアスの発生メカニズムについて検討する。
本稿では,LLMの特定の層にバイアスを局所化する手法である$textttATLAS$を提案する。
論文 参考訳(メタデータ) (2024-10-29T20:15:56Z) - Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Do they mean 'us'? Interpreting Referring Expressions in Intergroup Bias [42.35739515777376]
本稿では,NFLチームのファンダム専門フォーラムの英語スポーツコメントに対するタグ付けタスクとしてグループ間バイアスをモデル化する。
私たちは、反対の視点(ゲームのチーム)から600万以上のゲームタイムコメントのユニークなデータセットをキュレートします。
専門家と群衆のアノテーションは、暗黙的かつ明示的な参照表現のタグ付けを通じてバイアスをモデル化することを正当化する。
論文 参考訳(メタデータ) (2024-06-25T21:47:53Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models [12.12628747941818]
本稿では,Large Language Models (LLMs) における階層的ジェンダー採用バイアスのベンチマークを行うための新しいフレームワークを提案する。
我々は、労働経済学、法原則、現在のバイアスベンチマークの批判に根ざした新しい構成を導入する。
我々は、現在最先端の10のLCMにおける性別採用バイアスを分析する。
論文 参考訳(メタデータ) (2024-06-17T09:15:57Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Aligning with Whom? Large Language Models Have Gender and Racial Biases
in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。
どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。
より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Fair Abstractive Summarization of Diverse Perspectives [103.08300574459783]
公平な要約は、特定のグループを過小評価することなく、多様な視点を包括的にカバーしなければなりません。
はじめに、抽象的な要約における公正性は、いかなる集団の視点にも過小評価されないものとして、正式に定義する。
本研究では,対象視点と対象視点の差を測定することで,基準のない4つの自動計測手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T03:38:55Z) - Do Not Harm Protected Groups in Debiasing Language Representation Models [2.9057513016551244]
実世界のデータで訓練された言語表現モデル(LRM)は、望ましくないバイアスを捕捉し、悪化させる可能性がある。
実世界のテキスト分類タスクにおいて, 4つのデバイアス化手法について検討し, 全ての人口集団において, バイアスの低減が性能低下の犠牲となることを示す。
論文 参考訳(メタデータ) (2023-10-27T20:11:38Z) - CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias [7.28980829208179]
言語モデル(CALM)の包括的評価は、普遍的に関連する2種類の社会デマログラフバイアス、性別、人種の頑健な測定である。
実験により,CALMのバイアススコアは,テンプレートの摂動に対する従来のバイアス測定よりも頑健で,はるかに感度が低いことが示された。
論文 参考訳(メタデータ) (2023-08-24T03:53:55Z) - Queer People are People First: Deconstructing Sexual Identity
Stereotypes in Large Language Models [3.974379576408554]
大規模言語モデル(LLM)は、主に最小処理のWebテキストに基づいて訓練される。
LLMはLGBTQIA+コミュニティのような、疎外されたグループに対して必然的にステレオタイプを永続させることができる。
論文 参考訳(メタデータ) (2023-06-30T19:39:01Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Challenges in Measuring Bias via Open-Ended Language Generation [1.5552869983952944]
我々は、プロンプトセット、メトリクス、自動ツール、サンプリング戦略の特定の選択がバイアス結果にどのように影響するかを分析する。
オープンな言語生成におけるバイアスを報告するためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2022-05-23T19:57:15Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。