Fugu-MT 論文翻訳(概要): ChatGPT Exhibits Gender and Racial Biases in Acute Coronary Syndrome Management

論文の概要: ChatGPT Exhibits Gender and Racial Biases in Acute Coronary Syndrome Management

arxiv url: http://arxiv.org/abs/2311.14703v1
Date: Fri, 10 Nov 2023 19:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-03 13:54:50.303404
Title: ChatGPT Exhibits Gender and Racial Biases in Acute Coronary Syndrome Management
Title（参考訳）: chatgptは急性冠症候群における性別および人種バイアスを示す
Authors: Angela Zhang, Mert Yuksekgonul, Joshua Guild, James Zou, Joseph C. Wu
Abstract要約: 急性冠症候群(ACS)の臨床管理において,先行する大言語モデル(LLMs)が性別や人種的偏見を呈するか否かを評価する。その結果, 女性, アフリカ系アメリカ人, ヒスパニックの患者を指定すると, ACSの推奨医療管理, 診断, 症状管理のガイドラインが低下することがわかった。不安定な狭心症では最大の相違がみられ、明確な臨床ガイドラインは少ない。
参考スコア（独自算出の注目度）: 21.494787424254486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent breakthroughs in large language models (LLMs) have led to their rapid dissemination and widespread use. One early application has been to medicine, where LLMs have been investigated to streamline clinical workflows and facilitate clinical analysis and decision-making. However, a leading barrier to the deployment of Artificial Intelligence (AI) and in particular LLMs has been concern for embedded gender and racial biases. Here, we evaluate whether a leading LLM, ChatGPT 3.5, exhibits gender and racial bias in clinical management of acute coronary syndrome (ACS). We find that specifying patients as female, African American, or Hispanic resulted in a decrease in guideline recommended medical management, diagnosis, and symptom management of ACS. Most notably, the largest disparities were seen in the recommendation of coronary angiography or stress testing for the diagnosis and further intervention of ACS and recommendation of high intensity statins. These disparities correlate with biases that have been observed clinically and have been implicated in the differential gender and racial morbidity and mortality outcomes of ACS and coronary artery disease. Furthermore, we find that the largest disparities are seen during unstable angina, where fewer explicit clinical guidelines exist. Finally, we find that through asking ChatGPT 3.5 to explain its reasoning prior to providing an answer, we are able to improve clinical accuracy and mitigate instances of gender and racial biases. This is among the first studies to demonstrate that the gender and racial biases that LLMs exhibit do in fact affect clinical management. Additionally, we demonstrate that existing strategies that improve LLM performance not only improve LLM performance in clinical management, but can also be used to mitigate gender and racial biases.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、急速に普及し、広く使われるようになった。初期の応用は医学であり、LSMは臨床ワークフローの合理化と臨床分析と意思決定の促進のために研究されている。しかし、人工知能(ai)や特にllmの展開における主要な障壁は、組み込み性別や人種バイアスに対する懸念であった。急性冠症候群 (ACS) の臨床管理において, 先行する LLM である ChatGPT 3.5 が性別的, 人種的偏見を示すかを検討した。その結果, 女性, アフリカ系アメリカ人, ヒスパニックの患者を特定することで, ACSの推奨医療管理, 診断, 症状管理のガイドラインが減少した。 ACSの診断とさらなる介入,高強度スタチンの推奨など,冠動脈造影やストレステストの推奨において最大の相違がみられた。これらの差異は臨床的に観察され、ACSと冠動脈疾患の男女差、人種的死亡率、死亡率に関係しているバイアスと相関する。さらに,不安定な狭心症では,明確な臨床ガイドラインがほとんど存在しないため,最大の相違がみられた。最後に,chatgpt 3.5に回答を提示する前にその推論を説明するように依頼することで,臨床的正確性を改善し,性別や人種偏りを緩和できることがわかった。 LLMが提示する性差と人種バイアスが実際に臨床管理に影響を及ぼすことを示す最初の研究の1つである。さらに, LLM の改善戦略は, 臨床管理における LLM のパフォーマンスを向上するだけでなく, 性別や人種的偏見の軽減にも有効であることを示す。

関連論文リスト

The MedPerturb Dataset: What Non-Content Perturbations Reveal About Human and Clinical LLM Decision Making [13.734312822024947]
臨床入力の制御摂動下での医療用大言語モデル(LLM)の評価を目的としたデータセットであるMedPerturbを紹介する。 MedPerturbでは、リアルな入力の可変性に基づく800の臨床的コンテキストのデータセットをリリースする。我々は、MedPerturbを2つのケーススタディに用いて、ジェンダーアイデンティティの手がかり、言語スタイル、フォーマットの変化が、人間とLLM間の治療選択のばらつきを反映しているかを明らかにする。
論文参考訳（メタデータ） (2025-06-20T17:09:27Z)
Investigating LLMs in Clinical Triage: Promising Capabilities, Persistent Intersectional Biases [6.135648377533492]
大規模言語モデル (LLM) は, 臨床診断支援において有望であるが, トライアージへの応用は未定である。救急部門トリアージにおけるLCMの能力について,2つの重要な側面を通して体系的に検討した。我々は、継続した事前学習からテキスト内学習、機械学習アプローチまで、複数のLCMベースのアプローチを評価した。
論文参考訳（メタデータ） (2025-04-22T21:11:47Z)
Bias in Large Language Models Across Clinical Applications: A Systematic Review [0.0]
大規模言語モデル(LLM)は、医療に急速に統合され、様々な臨床業務を強化することを約束している。本研究は, LLMの有病率, 出所, 徴候, 臨床的意義について検討する。
論文参考訳（メタデータ） (2025-04-03T13:32:08Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Debias-CLR: A Contrastive Learning Based Debiasing Method for Algorithmic Fairness in Healthcare Applications [0.17624347338410748]
異なる治療と戦うために,暗黙の処理内脱バイアス法を提案した。心不全患者の臨床記録と診断基準,治療報告,生理的活力について検討した。 Debias-CLRは、性別や民族を嫌う場合に、SC-WEAT(Single-Category Word Embedding Association Test)の効果を減少させることができた。
論文参考訳（メタデータ） (2024-11-15T19:32:01Z)
The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。 DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文参考訳（メタデータ） (2024-11-06T06:50:50Z)
How Can We Diagnose and Treat Bias in Large Language Models for Clinical Decision-Making? [2.7476176772825904]
本研究では,大規模言語モデル(LLM)におけるバイアスの評価と緩和について検討する。本稿では,JAMAクリニカルチャレンジから得られた新しいCPVデータセットについて紹介する。このデータセットを用いて、複数の選択質問(MCQ)とそれに対応する説明を併用し、バイアス評価のためのフレームワークを構築した。
論文参考訳（メタデータ） (2024-10-21T23:14:10Z)
Mitigating the Risk of Health Inequity Exacerbated by Large Language Models [5.02540629164568]
大規模言語モデルの入力に非決定的な社会デマトグラフィー要素を組み込むことは、誤った有害な出力につながる可能性があることを示す。 LLMベースの医療応用における健康不平等のリスクを検知・緩和する新しいフレームワークであるEquityGuardを紹介する。
論文参考訳（メタデータ） (2024-10-07T16:40:21Z)
GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。 GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文参考訳（メタデータ） (2024-08-22T15:35:46Z)
CLIMB: A Benchmark of Clinical Bias in Large Language Models [39.82307008221118]
大規模言語モデル(LLM)は、臨床的な意思決定にますます応用されている。バイアスを示す可能性は、臨床の株式に重大なリスクをもたらす。現在、LSMにおけるそのような臨床バイアスを体系的に評価するベンチマークが欠如している。
論文参考訳（メタデータ） (2024-07-07T03:41:51Z)
Seeds of Stereotypes: A Large-Scale Textual Analysis of Race and Gender Associations with Diseases in Online Sources [1.8259644946867188]
本研究は、人種や性別の指標とともに様々な疾患が議論される状況を分析した。その結果、人口統計学用語は、オンラインテキストの特定の疾患概念と不均等に関連していることがわかった。我々は、特定の人種的・性別的用語と分析された18の疾患の関連において、幅広い相違を見出した。
論文参考訳（メタデータ） (2024-05-08T13:38:56Z)
Fairness Evolution in Continual Learning for Medical Imaging [47.52603262576663]
医用画像の分類性能に関する連続学習戦略(CL)の行動について検討した。我々は,リプレイ,フォーッティングなし学習(LwF),LwF,Pseudo-Label戦略を評価した。 LwF と Pseudo-Label は最適な分類性能を示すが、評価に公正度の測定値を含めると、Pseudo-Label がバイアスが少ないことは明らかである。
論文参考訳（メタデータ） (2024-04-10T09:48:52Z)
Evaluate underdiagnosis and overdiagnosis bias of deep learning model on primary open-angle glaucoma diagnosis in under-served patient populations [64.91773761529183]
原発性オープンアングル緑内障(POAG)はアメリカにおける盲目の主要な原因である。深層学習は眼底画像を用いたPOAGの検出に広く用いられている。臨床診断における人間のバイアスは、広く使われているディープラーニングモデルに反映され増幅される可能性がある。
論文参考訳（メタデータ） (2023-01-26T18:53:09Z)
Auditing Algorithmic Fairness in Machine Learning for Health with Severity-Based LOGAN [70.76142503046782]
臨床予測タスクにおいて,局所バイアスを自動検出するSLOGANを用いて,機械学習ベースの医療ツールを補足することを提案する。 LOGANは、患者の重症度と過去の医療史における集団バイアス検出を文脈化することにより、既存のツールであるLOcal Group biAs detectioNに適応する。 SLOGANは, クラスタリング品質を維持しながら, 患者群の75%以上において, SLOGANよりも高い公平性を示す。
論文参考訳（メタデータ） (2022-11-16T08:04:12Z)
Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文参考訳（メタデータ） (2022-07-21T09:35:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。