論文の概要: A Toolbox for Surfacing Health Equity Harms and Biases in Large Language Models
- arxiv url: http://arxiv.org/abs/2403.12025v2
- Date: Fri, 04 Oct 2024 21:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:51.276212
- Title: A Toolbox for Surfacing Health Equity Harms and Biases in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるヘルスエクイティ・ハームとバイアスに対するツールボックス
- Authors: Stephen R. Pfohl, Heather Cole-Lewis, Rory Sayres, Darlene Neal, Mercy Asiedu, Awa Dieng, Nenad Tomasev, Qazi Mamunur Rashid, Shekoofeh Azizi, Negar Rostamzadeh, Liam G. McCoy, Leo Anthony Celi, Yun Liu, Mike Schaekermann, Alanna Walton, Alicia Parrish, Chirag Nagpal, Preeti Singh, Akeiylah Dewitt, Philip Mansfield, Sushant Prakash, Katherine Heller, Alan Karthikesalingam, Christopher Semturs, Joelle Barral, Greg Corrado, Yossi Matias, Jamila Smith-Loud, Ivor Horn, Karan Singhal,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な健康情報のニーズを満たすことを約束すると同時に、健康格差を悪化させる可能性がある。
エクイティ関連モデル失敗の信頼性評価は、ヘルスエクイティを促進するシステムを開発するための重要なステップである。
医学的問題に対するLLMによる長期的回答において、株式関連害を生じさせる可能性のあるバイアスを克服するためのリソースと方法論を提示する。
- 参考スコア(独自算出の注目度): 20.11590976578911
- License:
- Abstract: Large language models (LLMs) hold promise to serve complex health information needs but also have the potential to introduce harm and exacerbate health disparities. Reliably evaluating equity-related model failures is a critical step toward developing systems that promote health equity. We present resources and methodologies for surfacing biases with potential to precipitate equity-related harms in long-form, LLM-generated answers to medical questions and conduct a large-scale empirical case study with the Med-PaLM 2 LLM. Our contributions include a multifactorial framework for human assessment of LLM-generated answers for biases, and EquityMedQA, a collection of seven datasets enriched for adversarial queries. Both our human assessment framework and dataset design process are grounded in an iterative participatory approach and review of Med-PaLM 2 answers. Through our empirical study, we find that our approach surfaces biases that may be missed via narrower evaluation approaches. Our experience underscores the importance of using diverse assessment methodologies and involving raters of varying backgrounds and expertise. While our approach is not sufficient to holistically assess whether the deployment of an AI system promotes equitable health outcomes, we hope that it can be leveraged and built upon towards a shared goal of LLMs that promote accessible and equitable healthcare.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な健康情報のニーズを満たすことを約束すると同時に、健康格差を悪化させる可能性がある。
エクイティ関連モデル失敗の信頼性評価は、ヘルスエクイティを促進するシステムを開発するための重要なステップである。
本研究は, 医学的疑問に対するLLMの長期的回答において, 株式関連害を生じさせる可能性のあるバイアスを克服するためのリソースと方法論を提示し, メド・パLM2 LLMを用いた大規模事例研究を行った。
私たちのコントリビューションには、LLM生成したバイアスに対する回答を人為的に評価するための多要素フレームワークと、敵クエリに富んだ7つのデータセットのコレクションであるEquityMedQAが含まれています。
我々の人間評価フレームワークとデータセット設計プロセスは、反復的な参加的アプローチとMed-PaLM 2の回答のレビューに基礎を置いている。
実験的な研究を通して、我々のアプローチはより狭い評価アプローチによって見逃される可能性のあるバイアスを表面化することを発見した。
我々の経験は、多様な評価手法を使うことの重要性と、様々なバックグラウンドや専門知識のラウンダーを巻き込むことの重要性を浮き彫りにしている。
当社のアプローチは、AIシステムの展開が公平な健康結果を促進するかどうかを、全体的に評価するには不十分ですが、アクセス可能で公平な医療を促進するLLMの共通の目標に向けて、それを活用し、構築できることを願っています。
関連論文リスト
- Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - IntelliCare: Improving Healthcare Analysis with Variance-Controlled Patient-Level Knowledge from Large Language Models [14.709233593021281]
LLM(Large Language Models)からの外部知識の統合は、医療予測を改善するための有望な道を示す。
我々は,LLMを活用して高品質な患者レベルの外部知識を提供する新しいフレームワークであるIntelliCareを提案する。
IntelliCareは患者のコホートを特定し、LCMの理解と生成を促進するためにタスク関連統計情報を利用する。
論文 参考訳(メタデータ) (2024-08-23T13:56:00Z) - M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering [14.198330378235632]
我々は,3つのジェネラリストと3つの専門的なバイオメディカルサブドメインにおいて,22のデータセットに関する大規模な実験研究を行うために,複数選択と抽象質問応答を用いた。
15個のLLMの性能の多面的解析により、リコールや理解の向上につながる命令チューニングなどの成功要因が明らかになった。
最近提案されたドメイン適応モデルには十分な知識が欠如している可能性があるが、収集した医療知識データセットを直接微調整することは、奨励的な結果を示している。
我々は、必要な知識を単に思い出し、提示された知識と統合するモデルの能力の間に大きなギャップがあることを明らかにする、スキル指向手動エラー解析で定量的結果を補完する。
論文 参考訳(メタデータ) (2024-06-06T02:43:21Z) - Evaluating large language models in medical applications: a survey [1.5923327069574245]
大規模言語モデル(LLM)は、多くのドメインにまたがる変換可能性を持つ強力なツールとして登場した。
医学的文脈におけるLCMのパフォーマンスを評価することは、医療情報の複雑で批判的な性質から、ユニークな課題を提示する。
論文 参考訳(メタデータ) (2024-05-13T05:08:33Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - LLM on FHIR -- Demystifying Health Records [0.32985979395737786]
本研究では,大規模言語モデル(LLM)を用いた健康記録と対話可能なアプリを開発した。
このアプリは、医療データを患者フレンドリーな言語に効果的に翻訳し、その反応を異なる患者プロファイルに適応させることができた。
論文 参考訳(メタデータ) (2024-01-25T17:45:34Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z) - Fair Machine Learning in Healthcare: A Review [90.22219142430146]
我々は、機械学習と医療格差における公正性の交差を分析する。
機械学習の観点から、関連する公正度メトリクスを批判的にレビューする。
本稿では,医療における倫理的かつ公平なMLアプリケーション開発を約束する新たな研究指針を提案する。
論文 参考訳(メタデータ) (2022-06-29T04:32:10Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。