論文の概要: Evaluating the Presence of Sex Bias in Clinical Reasoning by Large Language Models
- arxiv url: http://arxiv.org/abs/2602.04392v1
- Date: Wed, 04 Feb 2026 10:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.471049
- Title: Evaluating the Presence of Sex Bias in Clinical Reasoning by Large Language Models
- Title(参考訳): 大規模言語モデルによる臨床推論における性バイアスの有無の評価
- Authors: Isabel Tsintsiper, Sheng Wong, Beth Albert, Shaun P Brennecke, Gabriel Davis Jones,
- Abstract要約: 大規模言語モデル(LLM)は、ドキュメント、教育、臨床決定支援のための医療にますます組み込まれている。
本研究では,現代LPMが臨床推論における性差を示し,モデル構成がこれらの行動にどのように影響するかを検討した。
- 参考スコア(独自算出の注目度): 0.5872014229110214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly embedded in healthcare workflows for documentation, education, and clinical decision support. However, these systems are trained on large text corpora that encode existing biases, including sex disparities in diagnosis and treatment, raising concerns that such patterns may be reproduced or amplified. We systematically examined whether contemporary LLMs exhibit sex-specific biases in clinical reasoning and how model configuration influences these behaviours. We conducted three experiments using 50 clinician-authored vignettes spanning 44 specialties in which sex was non-informative to the initial diagnostic pathway. Four general-purpose LLMs (ChatGPT (gpt-4o-mini), Claude 3.7 Sonnet, Gemini 2.0 Flash and DeepSeekchat). All models demonstrated significant sex-assignment skew, with predicted sex differing by model. At temperature 0.5, ChatGPT assigned female sex in 70% of cases (95% CI 0.66-0.75), DeepSeek in 61% (0.57-0.65) and Claude in 59% (0.55-0.63), whereas Gemini showed a male skew, assigning a female sex in 36% of cases (0.32-0.41). Contemporary LLMs exhibit stable, model-specific sex biases in clinical reasoning. Permitting abstention reduces explicit labelling but does not eliminate downstream diagnostic differences. Safe clinical integration requires conservative and documented configuration, specialty-level clinical data auditing, and continued human oversight when deploying general-purpose models in healthcare settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ドキュメント、教育、臨床決定支援のための医療ワークフローにますます組み込まれています。
しかし、これらのシステムは、診断と治療における性差を含む既存のバイアスを符号化する大きなテキストコーパスで訓練されており、そのようなパターンが再生または増幅される可能性があるという懸念が高まっている。
本研究は,現代LPMが臨床推論における性差を示し,モデル構成がこれらの行動にどのように影響するかを系統的に検討した。
初発診断経路に性差が認められなかった44の専門分野にまたがる50の臨床用ヴィグネットを用いて3つの実験を行った。
4つの汎用LCM(ChatGPT (gpt-4o-mini), Claude 3.7 Sonnet, Gemini 2.0 Flash, DeepSeekchat)。
全てのモデルでは有意な性差を示し、予測された性差はモデルによって異なる。
温度0.5では、ChatGPTが70%(CI 0.66-0.75)、DeepSeekが61%(0.57-0.65)、Claudeが59%(0.55-0.63)、Geminiが36%(0.32-0.41)で女性性を割り当てた。
現代のLSMは、臨床推論において安定したモデル固有の性バイアスを示す。
寛容な禁忌は明示的なラベリングを減少させるが、下流の診断の違いを排除しない。
安全な臨床統合には、保守的で文書化された構成、専門レベルの臨床データ監査、医療設定に汎用モデルを展開する際の人間の監視が必要である。
関連論文リスト
- A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - A Women's Health Benchmark for Large Language Models [26.831715552066694]
女性の健康に特化して大きな言語モデル(LLM)のパフォーマンスを評価する最初のベンチマークであるWHB(Women's Health Benchmark)を紹介する。
本ベンチマークでは,5つの専門分野をカバーする96個のモデル切り株を厳格に検証した。
現在のモデルでは、女性の健康ベンチマークで約60%の失敗率を示しており、パフォーマンスは専門性やエラータイプによって劇的に変化している。
論文 参考訳(メタデータ) (2025-12-18T19:44:28Z) - MedVoiceBias: A Controlled Study of Audio LLM Behavior in Clinical Decision-Making [24.535496581050094]
大規模言語モデルは、テキストベースのインターフェースから臨床環境でのオーディオインタラクションへ移行する。
我々はこれらのモデルを170の症例で評価し、それぞれ36の異なる音声プロファイルから音声に合成した。
論文 参考訳(メタデータ) (2025-11-10T00:44:37Z) - Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。
本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。
DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:19:47Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - GeHirNet: A Gender-Aware Hierarchical Model for Voice Pathology Classification [4.504515306742906]
本稿では,まず,Melスペクトログラム上でResNet-50を用いて性別特異的な病理パターンを識別し,その後に性別条件付き疾患分類を行う新しい枠組みを提案する。
本研究は,声質特性の階層的モデリングにより,性別バイアスを低減しつつ,声質分類を推し進める。
論文 参考訳(メタデータ) (2025-08-02T03:19:44Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - Dataset Distribution Impacts Model Fairness: Single vs. Multi-Task Learning [2.9530211066840417]
ResNetベースのCNNを用いて皮膚病変分類の性能を評価する。
患者性やクラスラベルの異なるデータセットを生成するための線形プログラミング手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T15:23:26Z) - What Do You See in this Patient? Behavioral Testing of Clinical NLP
Models [69.09570726777817]
本稿では,入力の変化に関する臨床結果モデルの振る舞いを評価する拡張可能なテストフレームワークを提案する。
私たちは、同じデータを微調整しても、モデル行動は劇的に変化し、最高のパフォーマンスのモデルが常に最も医学的に可能なパターンを学習していないことを示しています。
論文 参考訳(メタデータ) (2021-11-30T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。