論文の概要: Measuring Implicit Bias in Explicitly Unbiased Large Language Models
- arxiv url: http://arxiv.org/abs/2402.04105v2
- Date: Thu, 23 May 2024 15:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 06:59:47.154618
- Title: Measuring Implicit Bias in Explicitly Unbiased Large Language Models
- Title(参考訳): 曖昧な大規模言語モデルにおける暗黙のバイアスの測定
- Authors: Xuechunzi Bai, Angelina Wang, Ilia Sucholutsky, Thomas L. Griffiths,
- Abstract要約: 大規模言語モデル(LLM)は明示的な社会的バイアステストに合格するが、それでも暗黙のバイアスを課す。
我々は、暗黙のバイアスを明らかにするプロンプトベースの方法であるLSM Implicit Biasと、意思決定タスクにおける微妙な差別を検出する戦略であるLSM Decision Biasの2つの新しいバイアス対策を導入する。
これらの指標を用いて,4つの社会カテゴリーにまたがる8つの価値整合モデルにおいて,社会における傾向を反映する広汎なステレオタイプバイアスが発見された。
- 参考スコア(独自算出の注目度): 14.279977138893846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can pass explicit social bias tests but still harbor implicit biases, similar to humans who endorse egalitarian beliefs yet exhibit subtle biases. Measuring such implicit biases can be a challenge: as LLMs become increasingly proprietary, it may not be possible to access their embeddings and apply existing bias measures; furthermore, implicit biases are primarily a concern if they affect the actual decisions that these systems make. We address both challenges by introducing two new measures of bias: LLM Implicit Bias, a prompt-based method for revealing implicit bias; and LLM Decision Bias, a strategy to detect subtle discrimination in decision-making tasks. Both measures are based on psychological research: LLM Implicit Bias adapts the Implicit Association Test, widely used to study the automatic associations between concepts held in human minds; and LLM Decision Bias operationalizes psychological results indicating that relative evaluations between two candidates, not absolute evaluations assessing each independently, are more diagnostic of implicit biases. Using these measures, we found pervasive stereotype biases mirroring those in society in 8 value-aligned models across 4 social categories (race, gender, religion, health) in 21 stereotypes (such as race and criminality, race and weapons, gender and science, age and negativity). Our prompt-based LLM Implicit Bias measure correlates with existing language model embedding-based bias methods, but better predicts downstream behaviors measured by LLM Decision Bias. These new prompt-based measures draw from psychology's long history of research into measuring stereotype biases based on purely observable behavior; they expose nuanced biases in proprietary value-aligned LLMs that appear unbiased according to standard benchmarks.
- Abstract(参考訳): 大きな言語モデル(LLM)は明示的な社会的偏見テストに合格するが、それでも暗黙の偏見を持つ。
LLMがますますプロプライエタリになるにつれて、埋め込みにアクセスして既存のバイアス対策を適用することはできないかもしれない。
我々は、暗黙のバイアスを明らかにするプロンプトベースの方法であるLLM Implicit Biasと、意思決定タスクにおける微妙な差別を検出する戦略であるLLM Decision Biasの2つの新しい方法を導入することで、両方の課題に対処する。
LLM Implicit Biasはインプリシット・アソシエーション・テストに適応し、人間の心にある概念間の自動的関連を研究するのに広く使われ、LLM Decision Biasは2つの候補間の相対的評価がそれぞれ独立して評価する絶対的評価ではなく、より暗黙的バイアスの診断であることを示す心理学的な結果を運用している。
これらの指標を用いて,21種類のステレオタイプ(人種・犯罪・人種・武器・性別・科学・年齢・負性など)の4つの社会カテゴリー(人種・性別・宗教・健康)にまたがる8つの価値整合モデルにおいて,社会においてその傾向を反映する広範囲なステレオタイプバイアスが認められた。
LLMインプリシットバイアス測定は,既存言語モデルの埋め込みバイアス法と相関するが,LLM決定バイアスによる下流の挙動の予測は良好である。
これらの新しいプロンプトベースの尺度は、純粋に観察可能な振る舞いに基づいてステレオタイプバイアスを測定する心理学の長い歴史から導かれる。
関連論文リスト
- The African Woman is Rhythmic and Soulful: Evaluation of Open-ended Generation for Implicit Biases [0.0]
本研究では,Large Language Models (LLMs) における微妙かつしばしば隠蔽されるバイアスについて検討する。
LLMがますますプロプライエタリになるにつれて、そのようなバイアスを測定するという課題はさらに悪化する。
本研究では,心理学的方法論に触発されたバイアスの革新的な尺度を紹介する。
論文 参考訳(メタデータ) (2024-07-01T13:21:33Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Investigating Bias in LLM-Based Bias Detection: Disparities between LLMs and Human Perception [13.592532358127293]
大規模言語モデル(LLM)におけるバイアスの存在と性質について検討する。
LLMが特に政治的バイアス予測やテキスト継続タスクにおいてバイアスを示すかどうかを調査する。
我々は,素早い工学とモデル微調整を含む脱バイアス戦略を提案する。
論文 参考訳(メタデータ) (2024-03-22T00:59:48Z) - Cognitive Bias in High-Stakes Decision-Making with LLMs [19.87475562475802]
我々は,大規模言語モデル(LLM)における認知バイアスの発見,評価,緩和を目的としたフレームワークを開発する。
心理学と認知科学の先行研究に触発され、16,800のプロンプトを含むデータセットを開発し、異なる認知バイアスを評価する。
我々は, LLMを用いた新たな手法により, それぞれのプロンプトの偏りを軽減し, 様々なバイアス緩和策を検証した。
論文 参考訳(メタデータ) (2024-02-25T02:35:56Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - The Unequal Opportunities of Large Language Models: Revealing
Demographic Bias through Job Recommendations [5.898806397015801]
大規模言語モデル(LLM)における人口統計バイアスの分析と比較のための簡易な手法を提案する。
本稿では,ChatGPTとLLaMAの交差バイアスを計測し,本手法の有効性を示す。
両モデルとも、メキシコ労働者の低賃金雇用を一貫して示唆するなど、さまざまな人口統計学的アイデンティティに対する偏見を識別する。
論文 参考訳(メタデータ) (2023-08-03T21:12:54Z) - Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing [98.07536837448293]
大規模言語モデル(LLM)は、様々な人口層に対して有害で人間らしいバイアスを示すことが示されている。
生成言語モデルにおけるバイアスを頑健に測定するためのdesiderataのリストを紹介する。
次に、このベンチマークを使用して、Llama、Mistral、およびそれらの命令チューニングバージョンを含む、最先端のオープンソースLLMをテストします。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。