Fugu-MT 論文翻訳(概要): Unmasking and Quantifying Racial Bias of Large Language Models in Medical Report Generation

論文の概要: Unmasking and Quantifying Racial Bias of Large Language Models in Medical Report Generation

arxiv url: http://arxiv.org/abs/2401.13867v1
Date: Thu, 25 Jan 2024 00:34:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 16:14:23.091094
Title: Unmasking and Quantifying Racial Bias of Large Language Models in Medical Report Generation
Title（参考訳）: 医療報告生成における大規模言語モデルの未知化と定量化
Authors: Yifan Yang, Xiaoyu Liu, Qiao Jin, Furong Huang, Zhiyong Lu
Abstract要約: GPT-3.5-turboやGPT-4のような大きな言語モデルは、医療専門家に約束を守る。これらのモデルはよりコストが高く、白人の入院が長くなる傾向にある。これらのバイアスは、現実世界の医療格差を反映している。
参考スコア（独自算出の注目度）: 36.15505795527914
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models like GPT-3.5-turbo and GPT-4 hold promise for healthcare professionals, but they may inadvertently inherit biases during their training, potentially affecting their utility in medical applications. Despite few attempts in the past, the precise impact and extent of these biases remain uncertain. Through both qualitative and quantitative analyses, we find that these models tend to project higher costs and longer hospitalizations for White populations and exhibit optimistic views in challenging medical scenarios with much higher survival rates. These biases, which mirror real-world healthcare disparities, are evident in the generation of patient backgrounds, the association of specific diseases with certain races, and disparities in treatment recommendations, etc. Our findings underscore the critical need for future research to address and mitigate biases in language models, especially in critical healthcare applications, to ensure fair and accurate outcomes for all patients.
Abstract（参考訳）: GPT-3.5-turboやGPT-4のような大きな言語モデルは、医療専門家に約束するが、トレーニング中にバイアスを必然的に受け継ぎ、医療応用における有用性に影響を与える可能性がある。過去への試みは少ないが、これらのバイアスの正確な影響と範囲はいまだに不明である。質的および定量的な分析により、これらのモデルは白人の患者にとって高いコストとより長い入院を予想し、生存率の高い挑戦的な医療シナリオにおいて楽観的な見解を示す傾向があることが分かる。実際の医療格差を反映したこれらのバイアスは、患者背景の生成、特定の疾患と特定の人種との関連、治療勧告の格差などにおいて明らかである。我々の研究は、言語モデル、特に重要な医療応用において、全ての患者に対して公平かつ正確な結果を確保するために、バイアスに対処し緩和する将来の研究の必要性を浮き彫りにしている。

関連論文リスト

Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
Bias in Large Language Models Across Clinical Applications: A Systematic Review [0.0]
大規模言語モデル(LLM)は、医療に急速に統合され、様々な臨床業務を強化することを約束している。本研究は, LLMの有病率, 出所, 徴候, 臨床的意義について検討する。
論文参考訳（メタデータ） (2025-04-03T13:32:08Z)
Fairness in Computational Innovations: Identifying Bias in Substance Use Treatment Length of Stay Prediction Models with Policy Implications [0.477529483515826]
予測機械学習(英: Predictive Machine Learning, ML)は、医学的意思決定を強化する計算技術である。しかし、社会的バイアスはそのようなモデルにエンコードすることができ、不利なグループの健康結果に不注意に影響を及ぼす懸念を提起する。この問題は、物質使用障害(SUD)の治療の文脈において特に重要であり、予測モデルのバイアスは、非常に脆弱な患者の回復に大きな影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2024-12-08T06:47:23Z)
Uncertainty Quantification for Clinical Outcome Predictions with (Large) Language Models [10.895429855778747]
ホワイトボックスおよびブラックボックス設定におけるEMHタスクに対するLMの不確実性定量化について検討する。 EHRにおけるマルチタスクとアンサンブル手法を用いることで,モデル不確実性を効果的に低減できることを示す。 6,000名以上の患者から得られた縦断的臨床データを10種類の臨床予測タスクで検証した。
論文参考訳（メタデータ） (2024-11-05T20:20:15Z)
Towards Fairer Health Recommendations: finding informative unbiased samples via Word Sense Disambiguation [3.328297368052458]
LLMを含むNLPモデルを用いて,医療カリキュラムのバイアス検出に取り組む。大規模コーパスからの偏見を医学専門家が注釈した4,105点の抜粋を含む金標準データセットで評価した。
論文参考訳（メタデータ） (2024-09-11T17:10:20Z)
Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-11T16:51:33Z)
Cross-Care: Assessing the Healthcare Implications of Pre-training Data on Language Model Bias [3.455189439319919]
大規模な言語モデル(LLM)におけるバイアスと実世界の知識を評価するための最初のベンチマークフレームワークであるCross-Careを紹介する。 ThePile$のような事前学習コーパスに埋め込まれた人口統計バイアスがLLMの出力にどのように影響するかを評価する。以上の結果から, LLMの病状有病率と, 集団間での実際の病状有病率との相違が明らかとなった。
論文参考訳（メタデータ） (2024-05-09T02:33:14Z)
Seeds of Stereotypes: A Large-Scale Textual Analysis of Race and Gender Associations with Diseases in Online Sources [1.8259644946867188]
本研究は、人種や性別の指標とともに様々な疾患が議論される状況を分析した。その結果、人口統計学用語は、オンラインテキストの特定の疾患概念と不均等に関連していることがわかった。我々は、特定の人種的・性別的用語と分析された18の疾患の関連において、幅広い相違を見出した。
論文参考訳（メタデータ） (2024-05-08T13:38:56Z)
Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文参考訳（メタデータ） (2024-04-26T16:39:50Z)
What's in a Name? Auditing Large Language Models for Race and Gender Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文参考訳（メタデータ） (2024-02-21T18:25:25Z)
MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文参考訳（メタデータ） (2023-10-04T01:36:30Z)
What Do You See in this Patient? Behavioral Testing of Clinical NLP Models [69.09570726777817]
本稿では,入力の変化に関する臨床結果モデルの振る舞いを評価する拡張可能なテストフレームワークを提案する。私たちは、同じデータを微調整しても、モデル行動は劇的に変化し、最高のパフォーマンスのモデルが常に最も医学的に可能なパターンを学習していないことを示しています。
論文参考訳（メタデータ） (2021-11-30T15:52:04Z)
MIMIC-IF: Interpretability and Fairness Evaluation of Deep Learning Models on MIMIC-IV Dataset [15.436560770086205]
MIMIC-IV (Medical Information Mart for Intensive Care, Version IV) は,医療データセットとして最大規模である。本研究では,データセット表現バイアスの包括的解析と,深層学習モデルの解釈可能性と予測フェアネスを用いて,病院内死亡率予測を行う。
論文参考訳（メタデータ） (2021-02-12T20:28:06Z)
UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。 UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。 UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文参考訳（メタデータ） (2020-10-22T02:28:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。