論文の概要: Bias in Large Language Models Across Clinical Applications: A Systematic Review
- arxiv url: http://arxiv.org/abs/2504.02917v1
- Date: Thu, 03 Apr 2025 13:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:42.250562
- Title: Bias in Large Language Models Across Clinical Applications: A Systematic Review
- Title(参考訳): 臨床応用における大規模言語モデルのバイアス : 体系的レビュー
- Authors: Thanathip Suenghataiphorn, Narisara Tribuddharat, Pojsakorn Danpanichkul, Narathorn Kulthamrongsri,
- Abstract要約: 大規模言語モデル(LLM)は、医療に急速に統合され、様々な臨床業務を強化することを約束している。
本研究は, LLMの有病率, 出所, 徴候, 臨床的意義について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Background: Large language models (LLMs) are rapidly being integrated into healthcare, promising to enhance various clinical tasks. However, concerns exist regarding their potential for bias, which could compromise patient care and exacerbate health inequities. This systematic review investigates the prevalence, sources, manifestations, and clinical implications of bias in LLMs. Methods: We conducted a systematic search of PubMed, OVID, and EMBASE from database inception through 2025, for studies evaluating bias in LLMs applied to clinical tasks. We extracted data on LLM type, bias source, bias manifestation, affected attributes, clinical task, evaluation methods, and outcomes. Risk of bias was assessed using a modified ROBINS-I tool. Results: Thirty-eight studies met inclusion criteria, revealing pervasive bias across various LLMs and clinical applications. Both data-related bias (from biased training data) and model-related bias (from model training) were significant contributors. Biases manifested as: allocative harm (e.g., differential treatment recommendations); representational harm (e.g., stereotypical associations, biased image generation); and performance disparities (e.g., variable output quality). These biases affected multiple attributes, most frequently race/ethnicity and gender, but also age, disability, and language. Conclusions: Bias in clinical LLMs is a pervasive and systemic issue, with a potential to lead to misdiagnosis and inappropriate treatment, particularly for marginalized patient populations. Rigorous evaluation of the model is crucial. Furthermore, the development and implementation of effective mitigation strategies, coupled with continuous monitoring in real-world clinical settings, are essential to ensure the safe, equitable, and trustworthy deployment of LLMs in healthcare.
- Abstract(参考訳): 背景: 大規模言語モデル(LLM)は急速に医療に統合され、様々な臨床業務を強化することを約束している。
しかし、患者ケアを妥協し、健康上の不平等を悪化させるバイアスの可能性については懸念がある。
本研究は, LLMの有病率, 出所, 徴候, 臨床的意義について検討する。
方法:2025年までのデータベースからPubMed, OVID, EMBASEを体系的に検索し, 臨床に応用したLSMのバイアス評価を行った。
LLM型, バイアス源, バイアス発生, 影響属性, 臨床課題, 評価方法, 結果に関するデータを抽出した。
修正ROBINS-Iツールを用いてバイアスのリスクを評価した。
結果: 3つの研究は包括的基準を満たし,様々なLSMにまたがる広範囲な偏見と臨床応用を明らかにした。
データ関連バイアス(バイアス付きトレーニングデータから)とモデル関連バイアス(モデルトレーニングから)の両方が重要な貢献者でした。
バイアスは、アロケーティブ・ハーネス(例えば、ディファレンシャル・トリート・レコメンデーション)、表現的ハーネス(例えば、ステレオタイプ的アソシエーション、バイアス画像生成)、パフォーマンス格差(例えば、可変出力品質)である。
これらのバイアスは、人種や民族、性別、年齢、障害、言語など、複数の属性に影響した。
結論: 臨床 LLM のバイアスは広範かつ体系的な問題であり, 誤診や不適切な治療, 特に辺縁化患者に対する治療の可能性を秘めている。
モデルの厳密な評価が重要である。
さらに, 医療におけるLLMの安全性, 公平性, 信頼性を確保するためには, 効果的な緩和戦略の開発と実施, 実環境における継続的なモニタリングの併用が不可欠である。
関連論文リスト
- Debias-CLR: A Contrastive Learning Based Debiasing Method for Algorithmic Fairness in Healthcare Applications [0.17624347338410748]
異なる治療と戦うために,暗黙の処理内脱バイアス法を提案した。
心不全患者の臨床記録と診断基準,治療報告,生理的活力について検討した。
Debias-CLRは、性別や民族を嫌う場合に、SC-WEAT(Single-Category Word Embedding Association Test)の効果を減少させることができた。
論文 参考訳(メタデータ) (2024-11-15T19:32:01Z) - How Can We Diagnose and Treat Bias in Large Language Models for Clinical Decision-Making? [2.7476176772825904]
本研究では,大規模言語モデル(LLM)におけるバイアスの評価と緩和について検討する。
本稿では,JAMAクリニカルチャレンジから得られた新しいCPVデータセットについて紹介する。
このデータセットを用いて、複数の選択質問(MCQ)とそれに対応する説明を併用し、バイアス評価のためのフレームワークを構築した。
論文 参考訳(メタデータ) (2024-10-21T23:14:10Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - CLIMB: A Benchmark of Clinical Bias in Large Language Models [39.82307008221118]
大規模言語モデル(LLM)は、臨床的な意思決定にますます応用されている。
バイアスを示す可能性は、臨床の株式に重大なリスクをもたらす。
現在、LSMにおけるそのような臨床バイアスを体系的に評価するベンチマークが欠如している。
論文 参考訳(メタデータ) (2024-07-07T03:41:51Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Cross-Care: Assessing the Healthcare Implications of Pre-training Data on Language Model Bias [3.455189439319919]
大規模な言語モデル(LLM)におけるバイアスと実世界の知識を評価するための最初のベンチマークフレームワークであるCross-Careを紹介する。
ThePile$のような事前学習コーパスに埋め込まれた人口統計バイアスがLLMの出力にどのように影響するかを評価する。
以上の結果から, LLMの病状有病率と, 集団間での実際の病状有病率との相違が明らかとなった。
論文 参考訳(メタデータ) (2024-05-09T02:33:14Z) - Bias patterns in the application of LLMs for clinical decision support: A comprehensive study [2.089191490381739]
大きな言語モデル (LLMs) は、臨床意思決定プロセスを伝える強力な候補として登場した。
これらのモデルは、デジタルランドスケープを形成する上で、ますます顕著な役割を担っている。
1) LLM は、患者の保護された属性(人種など)に基づいて、どの程度の社会的バイアスを示すのか、2) 設計選択(アーキテクチャ設計や戦略の推進など)は、観察されたバイアスにどのように影響するのか?
論文 参考訳(メタデータ) (2024-04-23T15:52:52Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Auditing Algorithmic Fairness in Machine Learning for Health with
Severity-Based LOGAN [70.76142503046782]
臨床予測タスクにおいて,局所バイアスを自動検出するSLOGANを用いて,機械学習ベースの医療ツールを補足することを提案する。
LOGANは、患者の重症度と過去の医療史における集団バイアス検出を文脈化することにより、既存のツールであるLOcal Group biAs detectioNに適応する。
SLOGANは, クラスタリング品質を維持しながら, 患者群の75%以上において, SLOGANよりも高い公平性を示す。
論文 参考訳(メタデータ) (2022-11-16T08:04:12Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。