論文の概要: Gender Bias in Large Language Models for Healthcare: Assignment Consistency and Clinical Implications
- arxiv url: http://arxiv.org/abs/2510.08614v1
- Date: Wed, 08 Oct 2025 01:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.195386
- Title: Gender Bias in Large Language Models for Healthcare: Assignment Consistency and Clinical Implications
- Title(参考訳): 医療用大規模言語モデルにおけるジェンダーバイアス : 課題整合性と臨床的意義
- Authors: Mingxuan Liu, Yuhe Ke, Wentao Zhu, Mayli Mertens, Yilin Ning, Jingchi Liao, Chuan Hong, Daniel Shu Wei Ting, Yifan Peng, Danielle S. Bitterman, Marcus Eng Hock Ong, Nan Liu,
- Abstract要約: 大きな言語モデルの医療への統合は、臨床的な意思決定を強化することを約束している。
ジェンダーは長年、医師の行動や患者に影響を与えてきた。
一部のモデルは、患者の性別の解釈において、体系的な男女格差も示していた。
- 参考スコア(独自算出の注目度): 16.066280458640676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of large language models (LLMs) into healthcare holds promise to enhance clinical decision-making, yet their susceptibility to biases remains a critical concern. Gender has long influenced physician behaviors and patient outcomes, raising concerns that LLMs assuming human-like roles, such as clinicians or medical educators, may replicate or amplify gender-related biases. Using case studies from the New England Journal of Medicine Challenge (NEJM), we assigned genders (female, male, or unspecified) to multiple open-source and proprietary LLMs. We evaluated their response consistency across LLM-gender assignments regarding both LLM-based diagnosis and models' judgments on the clinical relevance or necessity of patient gender. In our findings, diagnoses were relatively consistent across LLM genders for most models. However, for patient gender's relevance and necessity in LLM-based diagnosis, all models demonstrated substantial inconsistency across LLM genders, particularly for relevance judgements. Some models even displayed a systematic female-male disparity in their interpretation of patient gender. These findings present an underexplored bias that could undermine the reliability of LLMs in clinical practice, underscoring the need for routine checks of identity-assignment consistency when interacting with LLMs to ensure reliable and equitable AI-supported clinical care.
- Abstract(参考訳): 医療への大型言語モデル(LLM)の統合は、臨床的な意思決定を強化するという約束を持っているが、バイアスへの感受性は依然として重要な懸念である。
ジェンダーは長い間、医師の行動や患者の成果に影響を与えており、臨床医や医学教育者のような人間のような役割を仮定するLSMが、性に関するバイアスを再現または増幅する可能性があるという懸念を提起している。
New England Journal of Medicine Challenge (NEJM) のケーススタディを用いて、複数のオープンソースおよびプロプライエタリなLSMに性別(女性、男性、未特定)を割り当てた。
LLMをベースとした診断とモデルによる患者の性別の臨床的関連性や必要性の判断に関して,LSM-Gender の課題にまたがる反応の整合性を評価した。
以上の結果から,ほとんどのモデルではLDMの性別間で診断は比較的一致していた。
しかし, LLMによる診断において, 性別の関連性や必要性については, LLMの性別間, 特に関連判断において, ほぼ矛盾が認められた。
一部のモデルは、患者の性別の解釈において、体系的な男女格差も示していた。
これらの知見は,LLMの信頼性を損なうことのできない偏見を示し,信頼性と適切なAI支援型臨床ケアを確保するために,LLMと対話する際のアイデンティティ割り当て整合性の定期的なチェックの必要性を強調した。
関連論文リスト
- The MedPerturb Dataset: What Non-Content Perturbations Reveal About Human and Clinical LLM Decision Making [13.734312822024947]
臨床入力の制御摂動下での医療用大言語モデル(LLM)の評価を目的としたデータセットであるMedPerturbを紹介する。
MedPerturbでは、リアルな入力の可変性に基づく800の臨床的コンテキストのデータセットをリリースする。
我々は、MedPerturbを2つのケーススタディに用いて、ジェンダーアイデンティティの手がかり、言語スタイル、フォーマットの変化が、人間とLLM間の治療選択のばらつきを反映しているかを明らかにする。
論文 参考訳(メタデータ) (2025-06-20T17:09:27Z) - From Promising Capability to Pervasive Bias: Assessing Large Language Models for Emergency Department Triage [6.135648377533492]
大規模言語モデル (LLM) は, 臨床診断支援において有望であるが, トライアージへの応用は未定である。
救急部門トリアージにおけるLCMの能力について,2つの重要な側面を通して体系的に検討した。
我々は、継続した事前学習からテキスト内学習、機械学習アプローチまで、複数のLCMベースのアプローチを評価した。
論文 参考訳(メタデータ) (2025-04-22T21:11:47Z) - Bias in Large Language Models Across Clinical Applications: A Systematic Review [0.0]
大規模言語モデル(LLM)は、医療に急速に統合され、様々な臨床業務を強化することを約束している。
本研究は, LLMの有病率, 出所, 徴候, 臨床的意義について検討する。
論文 参考訳(メタデータ) (2025-04-03T13:32:08Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - How Can We Diagnose and Treat Bias in Large Language Models for Clinical Decision-Making? [2.7476176772825904]
本研究では,大規模言語モデル(LLM)におけるバイアスの評価と緩和について検討する。
本稿では,JAMAクリニカルチャレンジから得られた新しいCPVデータセットについて紹介する。
このデータセットを用いて、複数の選択質問(MCQ)とそれに対応する説明を併用し、バイアス評価のためのフレームワークを構築した。
論文 参考訳(メタデータ) (2024-10-21T23:14:10Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - CLIMB: A Benchmark of Clinical Bias in Large Language Models [39.82307008221118]
大規模言語モデル(LLM)は、臨床的な意思決定にますます応用されている。
バイアスを示す可能性は、臨床の株式に重大なリスクをもたらす。
現在、LSMにおけるそのような臨床バイアスを体系的に評価するベンチマークが欠如している。
論文 参考訳(メタデータ) (2024-07-07T03:41:51Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z) - Auditing Algorithmic Fairness in Machine Learning for Health with
Severity-Based LOGAN [70.76142503046782]
臨床予測タスクにおいて,局所バイアスを自動検出するSLOGANを用いて,機械学習ベースの医療ツールを補足することを提案する。
LOGANは、患者の重症度と過去の医療史における集団バイアス検出を文脈化することにより、既存のツールであるLOcal Group biAs detectioNに適応する。
SLOGANは, クラスタリング品質を維持しながら, 患者群の75%以上において, SLOGANよりも高い公平性を示す。
論文 参考訳(メタデータ) (2022-11-16T08:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。