論文の概要: Prejudice and Caprice: A Statistical Framework for Measuring Social
Discrimination in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.15481v2
- Date: Mon, 26 Feb 2024 03:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:08:46.242713
- Title: Prejudice and Caprice: A Statistical Framework for Measuring Social
Discrimination in Large Language Models
- Title(参考訳): prejudiceとcaprice:大規模言語モデルにおける社会的差別を測定するための統計的枠組み
- Authors: Yiran Liu (1 and 2), Ke Yang (1 and 3), Zehan Qi (2), Xiao Liu (2),
Yang Yu (2), Chengxiang Zhai (3) ((1) Equal contributions, (2) Tsinghua
University, (3) University of Illinois Urbana-Champaign)
- Abstract要約: 大規模言語モデル(LLM)における識別を包括的に計測するPCF(Prejudice-Caprice Framework)を提案する。
我々は,LLMの集合的文脈的識別リスクを,LLMの持続的偏見から生じる偏見リスクと,それらの世代的矛盾から生じるキャプライスリスクに数学的に分解する。
識別測定の枠組みを12の共通LLMに適用し,興味深い結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing integration of large language models (LLMs) into social
operations amplifies their impact on decisions in crucial areas such as
economics, law, education, and healthcare, raising public concerns about these
models' discrimination-related safety and reliability. However, prior
discrimination measuring frameworks solely assess the average discriminatory
behavior of LLMs, often proving inadequate due to the overlook of an additional
discrimination-leading factor, i.e., the LLMs' prediction variation across
diverse contexts. In this work, we present the Prejudice-Caprice Framework
(PCF) that comprehensively measures discrimination in LLMs by considering both
their consistently biased preference and preference variation across diverse
contexts. Specifically, we mathematically dissect the aggregated contextualized
discrimination risk of LLMs into prejudice risk, originating from LLMs'
persistent prejudice, and caprice risk, stemming from their generation
inconsistency. In addition, we utilize a data-mining approach to gather
preference-detecting probes from sentence skeletons, devoid of attribute
indications, to approximate LLMs' applied contexts. While initially intended
for assessing discrimination in LLMs, our proposed PCF facilitates the
comprehensive and flexible measurement of any inductive biases, including
knowledge alongside prejudice, across various modality models. We apply our
discrimination-measuring framework to 12 common LLMs, yielding intriguing
findings: i) modern LLMs demonstrate significant pro-male stereotypes, ii)
LLMs' exhibited discrimination correlates with several social and economic
factors, iii) prejudice risk dominates the overall discrimination risk and
follows a normal distribution, and iv) caprice risk contributes minimally to
the overall risk but follows a fat-tailed distribution, suggesting that it is
wild risk requiring enhanced surveillance.
- Abstract(参考訳): 大規模言語モデル(LLM)の社会活動への統合は、経済、法律、教育、医療といった重要な分野における決定に対する影響を増幅し、これらのモデルの差別に関する安全性と信頼性に対する公衆の懸念を高めている。
しかしながら、事前の差別測定フレームワークは LLM の平均的な差別行動のみを評価するものであり、様々な文脈における LLM の予測変動が、追加の差別誘導因子の見落としにより、しばしば不適切であることが証明される。
本研究では,LLMにおける差別を包括的に評価するPrejudice-Caprice Framework(PCF)を提案する。
具体的には、LLMの集合的文脈的識別リスクを、LLMの持続的偏見から生じる偏見リスクと、それらの世代的矛盾から生じるキャプライスリスクに数学的に分解する。
さらに,データマイニング手法を用いて,属性表示のない文骨格から好み検出プローブを収集し,LLMの適用文脈を近似する。
当初 LLM における差別評価を目的としていたが,提案した PCF は,偏見を伴う知識を含むあらゆる帰納バイアスの包括的かつ柔軟な測定を容易にする。
差別計測の枠組みを12の共通LLMに適用し、興味深い結果を得た。
一 現代LPMは、有意な前雄性ステレオタイプを示す。
二 LLMの表示された差別は、いくつかの社会的・経済的要因と相関する。
三 偏見リスクが全体の差別リスクを支配し、正常な分布に従うこと、及び
四 キャプライスリスクは、全体的なリスクに最小限に寄与するが、脂肪分分布に従わなければならず、監視の強化を必要とする危険なリスクである。
関連論文リスト
- Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Risk and Response in Large Language Models: Evaluating Key Threat Categories [6.436286493151731]
本稿では,Large Language Models (LLMs) におけるリスクアセスメントのプレッシャーについて考察する。
人為的レッドチームデータセットを利用することで、情報ハザード、悪用、差別/憎しみのあるコンテンツなど、主要なリスクカテゴリを分析します。
以上の結果から,LSMは情報ハザードを有害とみなす傾向があることが示唆された。
論文 参考訳(メタデータ) (2024-03-22T06:46:40Z) - On the Societal Impact of Open Foundation Models [93.67389739906561]
ここでは、広く利用可能なモデルウェイトを持つものとして定義されている、オープンファンデーションモデルに重点を置いています。
オープンファンデーションモデルの5つの特徴を識別し,その利点とリスクを両立させる。
論文 参考訳(メタデータ) (2024-02-27T16:49:53Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [48.18098860396162]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Uncertainty-based Fairness Measures [15.964921228103243]
機械学習(ML)モデルの異常予測は、現実の環境で広く受け入れられることを妨げる。
本稿では,MLモデルが既存の点ベース公正度尺度と同等であるように見えるが,予測の不確実性の観点からは人口集団に偏っていることを示す。
論文 参考訳(メタデータ) (2023-12-18T15:49:03Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - The Unequal Opportunities of Large Language Models: Revealing
Demographic Bias through Job Recommendations [5.898806397015801]
大規模言語モデル(LLM)における人口統計バイアスの分析と比較のための簡易な手法を提案する。
本稿では,ChatGPTとLLaMAの交差バイアスを計測し,本手法の有効性を示す。
両モデルとも、メキシコ労働者の低賃金雇用を一貫して示唆するなど、さまざまな人口統計学的アイデンティティに対する偏見を識別する。
論文 参考訳(メタデータ) (2023-08-03T21:12:54Z) - AI and ethics in insurance: a new solution to mitigate proxy
discrimination in risk modeling [0.0]
保険におけるデータの倫理的利用に関する規制当局の注目が高まる中で、アクチュアリアル・コミュニティは価格設定とリスク選択の実践を再考しなければならない。
エクイティ(Equity)は、現在合意に達することなく互いに影響を及ぼすあらゆる分野において、多くの異なる定義を持つ哲学概念である。
我々は、線形代数の数学的概念により間接的差別のリスクを低減するために、文献ではまだ満たされていない革新的な方法を提案する。
論文 参考訳(メタデータ) (2023-07-25T16:20:56Z) - Aleatoric and Epistemic Discrimination: Fundamental Limits of Fairness Interventions [13.279926364884512]
機械学習モデルは、モデル開発時の選択とデータ固有のバイアスにより、特定の人口群で過小評価される可能性がある。
フェアネス制約下でのモデルの性能限界を決定することにより,アレータリック判別の定量化を行う。
本研究では, 公平性制約を適用した際のモデルの精度と, アレタリック判別による限界とのギャップとして, てんかんの判別を定量化する。
論文 参考訳(メタデータ) (2023-01-27T15:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。