論文の概要: Unmasking and Quantifying Racial Bias of Large Language Models in
Medical Report Generation
- arxiv url: http://arxiv.org/abs/2401.13867v1
- Date: Thu, 25 Jan 2024 00:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:14:23.091094
- Title: Unmasking and Quantifying Racial Bias of Large Language Models in
Medical Report Generation
- Title(参考訳): 医療報告生成における大規模言語モデルの未知化と定量化
- Authors: Yifan Yang, Xiaoyu Liu, Qiao Jin, Furong Huang, Zhiyong Lu
- Abstract要約: GPT-3.5-turboやGPT-4のような大きな言語モデルは、医療専門家に約束を守る。
これらのモデルはよりコストが高く、白人の入院が長くなる傾向にある。
これらのバイアスは、現実世界の医療格差を反映している。
- 参考スコア(独自算出の注目度): 36.15505795527914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models like GPT-3.5-turbo and GPT-4 hold promise for
healthcare professionals, but they may inadvertently inherit biases during
their training, potentially affecting their utility in medical applications.
Despite few attempts in the past, the precise impact and extent of these biases
remain uncertain. Through both qualitative and quantitative analyses, we find
that these models tend to project higher costs and longer hospitalizations for
White populations and exhibit optimistic views in challenging medical scenarios
with much higher survival rates. These biases, which mirror real-world
healthcare disparities, are evident in the generation of patient backgrounds,
the association of specific diseases with certain races, and disparities in
treatment recommendations, etc. Our findings underscore the critical need for
future research to address and mitigate biases in language models, especially
in critical healthcare applications, to ensure fair and accurate outcomes for
all patients.
- Abstract(参考訳): GPT-3.5-turboやGPT-4のような大きな言語モデルは、医療専門家に約束するが、トレーニング中にバイアスを必然的に受け継ぎ、医療応用における有用性に影響を与える可能性がある。
過去への試みは少ないが、これらのバイアスの正確な影響と範囲はいまだに不明である。
質的および定量的な分析により、これらのモデルは白人の患者にとって高いコストとより長い入院を予想し、生存率の高い挑戦的な医療シナリオにおいて楽観的な見解を示す傾向があることが分かる。
実際の医療格差を反映したこれらのバイアスは、患者背景の生成、特定の疾患と特定の人種との関連、治療勧告の格差などにおいて明らかである。
我々の研究は、言語モデル、特に重要な医療応用において、全ての患者に対して公平かつ正確な結果を確保するために、バイアスに対処し緩和する将来の研究の必要性を浮き彫りにしている。
関連論文リスト
- Demographic Bias of Expert-Level Vision-Language Foundation Models in
Medical Imaging [13.141767097232796]
自己監督型視覚言語基盤モデルは、明示的なトレーニングアノテーションに頼ることなく、幅広い病態を検出することができる。
これらのAIモデルが人間の偏見を反映または増幅しないことを保証することが不可欠である。
本研究では,5つのグローバルソースデータセットを対象とした胸部X線診断における最先端の視覚言語基盤モデルのアルゴリズム的公正性について検討した。
論文 参考訳(メタデータ) (2024-02-22T18:59:53Z) - What's in a Name? Auditing Large Language Models for Race and Gender
Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - Generalization in Healthcare AI: Evaluation of a Clinical Large Language
Model [9.83029774375588]
大規模言語モデル(LLM)は、患者のケアの改善、臨床的意思決定、医師と管理者の強化のための医療の機会を提供する。
これらのモデルのポテンシャルは、臨床環境や人口にわたって効果的に一般化する能力に大きく依存する。
本研究は,30日間の完全寛解予測において,HOSPITALの臨床ノートを用いたLCMであるクリニックLLMを評価した。
論文 参考訳(メタデータ) (2024-02-14T06:24:52Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Generative models improve fairness of medical classifiers under
distribution shifts [49.10233060774818]
データから現実的な拡張を自動的に学習することは、生成モデルを用いてラベル効率の良い方法で可能であることを示す。
これらの学習の強化は、モデルをより堅牢で統計的に公平に配布できることを示した。
論文 参考訳(メタデータ) (2023-04-18T18:15:38Z) - Evaluating the Fairness of Deep Learning Uncertainty Estimates in
Medical Image Analysis [3.5536769591744557]
深層学習(DL)モデルは多くの医療画像解析タスクで大きな成功を収めている。
しかし、結果として得られたモデルを実際の臨床状況に展開するには、異なるサブ集団間での堅牢性と公平性が必要である。
近年の研究では、人口統計学的サブグループにまたがるDLモデルに有意なバイアスが見られ、モデルに公平性が欠如していることが示されている。
論文 参考訳(メタデータ) (2023-03-06T16:01:30Z) - Almanac: Retrieval-Augmented Language Models for Clinical Medicine [1.5505279143287174]
医療ガイドラインと治療勧告の検索機能を備えた大規模言語モデルフレームワークであるAlmanacを開発した。
5人の医師と医師のパネルで評価された新しい臨床シナリオのデータセットの性能は、事実性の顕著な増加を示している。
論文 参考訳(メタデータ) (2023-03-01T02:30:11Z) - What Do You See in this Patient? Behavioral Testing of Clinical NLP
Models [69.09570726777817]
本稿では,入力の変化に関する臨床結果モデルの振る舞いを評価する拡張可能なテストフレームワークを提案する。
私たちは、同じデータを微調整しても、モデル行動は劇的に変化し、最高のパフォーマンスのモデルが常に最も医学的に可能なパターンを学習していないことを示しています。
論文 参考訳(メタデータ) (2021-11-30T15:52:04Z) - MIMIC-IF: Interpretability and Fairness Evaluation of Deep Learning
Models on MIMIC-IV Dataset [15.436560770086205]
MIMIC-IV (Medical Information Mart for Intensive Care, Version IV) は,医療データセットとして最大規模である。
本研究では,データセット表現バイアスの包括的解析と,深層学習モデルの解釈可能性と予測フェアネスを用いて,病院内死亡率予測を行う。
論文 参考訳(メタデータ) (2021-02-12T20:28:06Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。