論文の概要: ChatGPT Exhibits Gender and Racial Biases in Acute Coronary Syndrome
Management
- arxiv url: http://arxiv.org/abs/2311.14703v1
- Date: Fri, 10 Nov 2023 19:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-03 13:54:50.303404
- Title: ChatGPT Exhibits Gender and Racial Biases in Acute Coronary Syndrome
Management
- Title(参考訳): chatgptは急性冠症候群における性別および人種バイアスを示す
- Authors: Angela Zhang, Mert Yuksekgonul, Joshua Guild, James Zou, Joseph C. Wu
- Abstract要約: 急性冠症候群(ACS)の臨床管理において,先行する大言語モデル(LLMs)が性別や人種的偏見を呈するか否かを評価する。
その結果, 女性, アフリカ系アメリカ人, ヒスパニックの患者を指定すると, ACSの推奨医療管理, 診断, 症状管理のガイドラインが低下することがわかった。
不安定な狭心症では最大の相違がみられ、明確な臨床ガイドラインは少ない。
- 参考スコア(独自算出の注目度): 21.494787424254486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in large language models (LLMs) have led to their rapid
dissemination and widespread use. One early application has been to medicine,
where LLMs have been investigated to streamline clinical workflows and
facilitate clinical analysis and decision-making. However, a leading barrier to
the deployment of Artificial Intelligence (AI) and in particular LLMs has been
concern for embedded gender and racial biases. Here, we evaluate whether a
leading LLM, ChatGPT 3.5, exhibits gender and racial bias in clinical
management of acute coronary syndrome (ACS). We find that specifying patients
as female, African American, or Hispanic resulted in a decrease in guideline
recommended medical management, diagnosis, and symptom management of ACS. Most
notably, the largest disparities were seen in the recommendation of coronary
angiography or stress testing for the diagnosis and further intervention of ACS
and recommendation of high intensity statins. These disparities correlate with
biases that have been observed clinically and have been implicated in the
differential gender and racial morbidity and mortality outcomes of ACS and
coronary artery disease. Furthermore, we find that the largest disparities are
seen during unstable angina, where fewer explicit clinical guidelines exist.
Finally, we find that through asking ChatGPT 3.5 to explain its reasoning prior
to providing an answer, we are able to improve clinical accuracy and mitigate
instances of gender and racial biases. This is among the first studies to
demonstrate that the gender and racial biases that LLMs exhibit do in fact
affect clinical management. Additionally, we demonstrate that existing
strategies that improve LLM performance not only improve LLM performance in
clinical management, but can also be used to mitigate gender and racial biases.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、急速に普及し、広く使われるようになった。
初期の応用は医学であり、LSMは臨床ワークフローの合理化と臨床分析と意思決定の促進のために研究されている。
しかし、人工知能(ai)や特にllmの展開における主要な障壁は、組み込み性別や人種バイアスに対する懸念であった。
急性冠症候群 (ACS) の臨床管理において, 先行する LLM である ChatGPT 3.5 が性別的, 人種的偏見を示すかを検討した。
その結果, 女性, アフリカ系アメリカ人, ヒスパニックの患者を特定することで, ACSの推奨医療管理, 診断, 症状管理のガイドラインが減少した。
ACSの診断とさらなる介入,高強度スタチンの推奨など,冠動脈造影やストレステストの推奨において最大の相違がみられた。
これらの差異は臨床的に観察され、ACSと冠動脈疾患の男女差、人種的死亡率、死亡率に関係しているバイアスと相関する。
さらに,不安定な狭心症では,明確な臨床ガイドラインがほとんど存在しないため,最大の相違がみられた。
最後に,chatgpt 3.5に回答を提示する前にその推論を説明するように依頼することで,臨床的正確性を改善し,性別や人種偏りを緩和できることがわかった。
LLMが提示する性差と人種バイアスが実際に臨床管理に影響を及ぼすことを示す最初の研究の1つである。
さらに, LLM の改善戦略は, 臨床管理における LLM のパフォーマンスを向上するだけでなく, 性別や人種的偏見の軽減にも有効であることを示す。
関連論文リスト
- Cross-Care: Assessing the Healthcare Implications of Pre-training Data on Language Model Bias [3.455189439319919]
大規模な言語モデル(LLM)におけるバイアスと実世界の知識を評価するための最初のベンチマークフレームワークであるCross-Careを紹介する。
ThePile$のような事前学習コーパスに埋め込まれた人口統計バイアスがLLMの出力にどのように影響するかを評価する。
以上の結果から, LLMの病状有病率と, 集団間での実際の病状有病率との相違が明らかとなった。
論文 参考訳(メタデータ) (2024-05-09T02:33:14Z) - Seeds of Stereotypes: A Large-Scale Textual Analysis of Race and Gender Associations with Diseases in Online Sources [1.8259644946867188]
本研究は、人種や性別の指標とともに様々な疾患が議論される状況を分析した。
その結果、人口統計学用語は、オンラインテキストの特定の疾患概念と不均等に関連していることがわかった。
我々は、特定の人種的・性別的用語と分析された18の疾患の関連において、幅広い相違を見出した。
論文 参考訳(メタデータ) (2024-05-08T13:38:56Z) - Leveraging Large Language Models to Extract Information on Substance Use Disorder Severity from Clinical Notes: A Zero-shot Learning Approach [3.0962132663521227]
物質利用障害 (SUD) は、健康や社会に有害な影響があるとして大きな懸念を抱いている。
国際疾患分類(ICD-10)のような既存の診断符号化システムは、特定の診断のための粒度を欠いている。
従来の自然言語処理(NLP)手法は、このような多様な臨床言語を正確に解析する際の限界に直面している。
本研究では,臨床ノートから重症度関連情報を抽出するためのLarge Language Models (LLMs) の応用について検討した。
論文 参考訳(メタデータ) (2024-03-18T22:39:03Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Auditing ICU Readmission Rates in an Clinical Database: An Analysis of
Risk Factors and Clinical Outcomes [0.0]
本研究では,30日間の読解問題における臨床データ分類のための機械学習パイプラインを提案する。
公正監査は、平等機会、予測パリティ、偽陽性率パリティ、偽陰性率パリティ基準の格差を明らかにする。
この研究は、人工知能(AI)システムのバイアスと公平性に対処するために、研究者、政策立案者、実践者の協力的努力の必要性を示唆している。
論文 参考訳(メタデータ) (2023-04-12T17:09:38Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Evaluate underdiagnosis and overdiagnosis bias of deep learning model on
primary open-angle glaucoma diagnosis in under-served patient populations [64.91773761529183]
原発性オープンアングル緑内障(POAG)はアメリカにおける盲目の主要な原因である。
深層学習は眼底画像を用いたPOAGの検出に広く用いられている。
臨床診断における人間のバイアスは、広く使われているディープラーニングモデルに反映され増幅される可能性がある。
論文 参考訳(メタデータ) (2023-01-26T18:53:09Z) - Auditing Algorithmic Fairness in Machine Learning for Health with
Severity-Based LOGAN [70.76142503046782]
臨床予測タスクにおいて,局所バイアスを自動検出するSLOGANを用いて,機械学習ベースの医療ツールを補足することを提案する。
LOGANは、患者の重症度と過去の医療史における集団バイアス検出を文脈化することにより、既存のツールであるLOcal Group biAs detectioNに適応する。
SLOGANは, クラスタリング品質を維持しながら, 患者群の75%以上において, SLOGANよりも高い公平性を示す。
論文 参考訳(メタデータ) (2022-11-16T08:04:12Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z) - Write It Like You See It: Detectable Differences in Clinical Notes By
Race Lead To Differential Model Recommendations [15.535251319178379]
機械学習モデルと人間専門家が利用できる暗黙の人種情報のレベルについて検討する。
また,本研究の結果から,被験者の自己申告した人種を,明示的な人種指標から取り除かれた場合でも,臨床記録から特定できることがわかった。
以上の結果から,これらのテストノートに基づいてトレーニングしたモデルが,臨床治療決定における既存のバイアスを持続させる可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-08T18:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。