論文の概要: Evaluation of Bias Towards Medical Professionals in Large Language Models
- arxiv url: http://arxiv.org/abs/2407.12031v1
- Date: Sun, 30 Jun 2024 05:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 11:20:27.676935
- Title: Evaluation of Bias Towards Medical Professionals in Large Language Models
- Title(参考訳): 大規模言語モデルにおける医療専門家に向けたバイアスの評価
- Authors: Xi Chen, Yang Xu, MingKe You, Li Wang, WeiZhi Liu, Jian Li,
- Abstract要約: GPT-4, Claude-3, Mistral-Largeは, 医療従事者の居住選択に有意な性差と人種的偏見を示した。
実験の結果、ヒスパニック系の女性とアジア系の男性に対して、様々な専門分野の強い嗜好が示された。
- 参考スコア(独自算出の注目度): 11.450991679521605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates whether large language models (LLMs) exhibit biases towards medical professionals. Fictitious candidate resumes were created to control for identity factors while maintaining consistent qualifications. Three LLMs (GPT-4, Claude-3-haiku, and Mistral-Large) were tested using a standardized prompt to evaluate resumes for specific residency programs. Explicit bias was tested by changing gender and race information, while implicit bias was tested by changing names while hiding race and gender. Physician data from the Association of American Medical Colleges was used to compare with real-world demographics. 900,000 resumes were evaluated. All LLMs exhibited significant gender and racial biases across medical specialties. Gender preferences varied, favoring male candidates in surgery and orthopedics, while preferring females in dermatology, family medicine, obstetrics and gynecology, pediatrics, and psychiatry. Claude-3 and Mistral-Large generally favored Asian candidates, while GPT-4 preferred Black and Hispanic candidates in several specialties. Tests revealed strong preferences towards Hispanic females and Asian males in various specialties. Compared to real-world data, LLMs consistently chose higher proportions of female and underrepresented racial candidates than their actual representation in the medical workforce. GPT-4, Claude-3, and Mistral-Large showed significant gender and racial biases when evaluating medical professionals for residency selection. These findings highlight the potential for LLMs to perpetuate biases and compromise healthcare workforce diversity if used without proper bias mitigation strategies.
- Abstract(参考訳): 本研究は,大規模言語モデル(LLM)が医療専門家に偏見を示すか否かを評価する。
一定の資格を維持しつつ、アイデンティティーファクターを制御するために、架空の候補者履歴書が作成された。
3つのLCM(GPT-4、Claude-3-haiku、Mistral-Large)を標準化されたプロンプトを用いて試験し、特定の居住プログラムの履歴を評価する。
明示バイアスは性別や人種情報を変えることによってテストされ、暗黙バイアスは人種や性別を隠蔽しながら名前を変えることによってテストされた。
アメリカ医学大学協会の医師データは、現実世界の人口統計と比較するために用いられた。
9万の履歴書が評価された。
すべてのLSMは、医療専門分野において有意な性別と人種的偏見を示した。
性別の好みは様々で、手術や整形外科の男性候補を好んだが、皮膚科、家族医学、産婦人科、小児科、精神科では女性を好んだ。
Claude-3とMistral-Largeは一般的にアジア系の候補を好んだが、GPT-4は黒とヒスパニック系の候補を好んだ。
実験の結果、ヒスパニック系の女性とアジア系の男性に対して、様々な専門分野の強い嗜好が示された。
実世界のデータと比較すると、LSMは医療従事者における実際の代表者よりも、女性や少数派の人種的候補者の割合を常に高い割合で選択した。
GPT-4, Claude-3, Mistral-Largeは, 医療従事者の居住選択に有意な性差と人種的偏見を示した。
これらの知見は、適切なバイアス緩和戦略を使わずに、LCMがバイアスを持続させ、医療従事者の多様性を損なう可能性を浮き彫りにした。
関連論文リスト
- The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Evaluating Gender, Racial, and Age Biases in Large Language Models: A Comparative Analysis of Occupational and Crime Scenarios [0.0]
本稿では,Large Language Models(LLMs)におけるバイアスについて検討する。
LLMは、様々な職業において、男性よりも頻繁に女性キャラクターを描いていることが判明した。
性別と人種の偏見を減らそうとする努力は、しばしば1つのサブクラスを超越する結果をもたらす。
論文 参考訳(メタデータ) (2024-09-22T20:21:20Z) - From Bias to Balance: Detecting Facial Expression Recognition Biases in Large Multimodal Foundation Models [3.1927733045184885]
本研究では,大規模マルチモーダルファンデーションモデル(LMFM)における表情認識(FER)システムの人種的偏見について考察する。
既存の研究は主に従来のFERモデル(CNN、RNN、ViT)に焦点を当てており、LMFMにおける人種的バイアスの理解のギャップを残している。
GPT-4o、PaliGemma、Gemini、CLIPの4つの主要なLMFMをベンチマークし、異なる人種層にわたる顔の感情検出のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-08-27T07:54:01Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - "You Gotta be a Doctor, Lin": An Investigation of Name-Based Bias of Large Language Models in Employment Recommendations [29.183942575629214]
我々はGPT-3.5-TurboとLlama 3-70B-Instructを利用して、人種や性別を強く示す320のファーストネームを持つ候補者の雇用決定と給与勧告をシミュレートする。
以上の結果から,40の職種にまたがる他の人口集団よりも,白人女性の名前を持つ候補者を雇用する傾向が示唆された。
論文 参考訳(メタデータ) (2024-06-18T03:11:43Z) - Do Large Language Models Discriminate in Hiring Decisions on the Basis of Race, Ethnicity, and Gender? [15.362940175441048]
大規模言語モデル(LLM)が雇用決定において人種と性別に基づく名前の差別を示すか否かを検討する。
我々は、LLMに対して、雇用決定を告げるメールを書くための一連のテンポラティックなプロンプトを設計する。
応募者のファーストネームを操作することで、LLMが受信メールや拒否メールを生成する確率に対する、認識された人種、民族、性別の影響を測定する。
論文 参考訳(メタデータ) (2024-06-15T03:31:16Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - What's in a Name? Auditing Large Language Models for Race and Gender
Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - Assessing Group-level Gender Bias in Professional Evaluations: The Case
of Medical Student End-of-Shift Feedback [14.065979111248497]
女性医師は、上級職に不足しており、男性医師よりも収入が少なく、昇進も少ない傾向にある。
この研究は主に、LIWCのような固定辞書を用いて特定の単語を探し、レコメンデーションレターに焦点をあてることによって行われた。
複数の機関にまたがって収集された個別の勤務シフトにおける医学生の成績の書面的・定量的な評価データセットを用いて、医学生の日々の状況における男女差の程度を調査する。
論文 参考訳(メタデータ) (2022-06-01T05:01:36Z) - How True is GPT-2? An Empirical Analysis of Intersectional Occupational
Biases [50.591267188664666]
下流のアプリケーションは、自然言語モデルに含まれるバイアスを継承するリスクがある。
一般的な生成言語モデルであるGPT-2の作業バイアスを分析した。
特定の仕事について、GPT-2は米国におけるジェンダーと民族の社会的偏見を反映しており、場合によってはジェンダー・パリティの傾向を反映している。
論文 参考訳(メタデータ) (2021-02-08T11:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。