論文の概要: A Toolbox for Surfacing Health Equity Harms and Biases in Large Language Models
- arxiv url: http://arxiv.org/abs/2403.12025v1
- Date: Mon, 18 Mar 2024 17:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 19:01:22.200811
- Title: A Toolbox for Surfacing Health Equity Harms and Biases in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるヘルスエクイティ・ハームとバイアスに対するツールボックス
- Authors: Stephen R. Pfohl, Heather Cole-Lewis, Rory Sayres, Darlene Neal, Mercy Asiedu, Awa Dieng, Nenad Tomasev, Qazi Mamunur Rashid, Shekoofeh Azizi, Negar Rostamzadeh, Liam G. McCoy, Leo Anthony Celi, Yun Liu, Mike Schaekermann, Alanna Walton, Alicia Parrish, Chirag Nagpal, Preeti Singh, Akeiylah Dewitt, Philip Mansfield, Sushant Prakash, Katherine Heller, Alan Karthikesalingam, Christopher Semturs, Joelle Barral, Greg Corrado, Yossi Matias, Jamila Smith-Loud, Ivor Horn, Karan Singhal,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な健康情報のニーズを満たすための大きな約束を持っている。
LLMは、有害性を導入し、健康格差を悪化させる可能性がある。
エクイティ関連モデル失敗の信頼性評価は、ヘルスエクイティを促進するシステムを開発するための重要なステップである。
- 参考スコア(独自算出の注目度): 20.11590976578911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) hold immense promise to serve complex health information needs but also have the potential to introduce harm and exacerbate health disparities. Reliably evaluating equity-related model failures is a critical step toward developing systems that promote health equity. In this work, we present resources and methodologies for surfacing biases with potential to precipitate equity-related harms in long-form, LLM-generated answers to medical questions and then conduct an empirical case study with Med-PaLM 2, resulting in the largest human evaluation study in this area to date. Our contributions include a multifactorial framework for human assessment of LLM-generated answers for biases, and EquityMedQA, a collection of seven newly-released datasets comprising both manually-curated and LLM-generated questions enriched for adversarial queries. Both our human assessment framework and dataset design process are grounded in an iterative participatory approach and review of possible biases in Med-PaLM 2 answers to adversarial queries. Through our empirical study, we find that the use of a collection of datasets curated through a variety of methodologies, coupled with a thorough evaluation protocol that leverages multiple assessment rubric designs and diverse rater groups, surfaces biases that may be missed via narrower evaluation approaches. Our experience underscores the importance of using diverse assessment methodologies and involving raters of varying backgrounds and expertise. We emphasize that while our framework can identify specific forms of bias, it is not sufficient to holistically assess whether the deployment of an AI system promotes equitable health outcomes. We hope the broader community leverages and builds on these tools and methods towards realizing a shared goal of LLMs that promote accessible and equitable healthcare for all.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な健康情報を提供するという大きな約束を持っているが、健康格差を悪化させる可能性がある。
エクイティ関連モデル失敗の信頼性評価は、ヘルスエクイティを促進するシステムを開発するための重要なステップである。
本研究は,医学的質問に対するLLM生成の長期的回答において,株式関連害を沈降させる可能性を秘めたバイアスを克服し,Med-PaLM 2を用いて経験的ケーススタディを実施し,その結果,これまでで最大の人的評価研究となった。
EquityMedQAは、手動で計算し、LLMで生成した質問を敵対的クエリに富んだ7つの新たにリリースしたデータセットの集合である。
我々の人間評価フレームワークとデータセット設計プロセスは、反復的な参加的アプローチと、Med-PaLM 2の逆クエリに対するバイアスの可能性を検証している。
実験的な研究を通じて,複数の評価ルーブリックデザインと多様なレーダグループを活用する徹底的な評価プロトコルと組み合わせることで,より狭い評価アプローチによって見逃される可能性のあるバイアスを表面化することを発見した。
我々の経験は、多様な評価手法を使うことの重要性と、様々なバックグラウンドや専門知識のラウンダーを巻き込むことの重要性を浮き彫りにしている。
我々は、我々のフレームワークが特定のバイアスの種類を特定することはできるが、AIシステムの展開が同等の健康結果を促進するかどうかを全体論的に評価することは十分ではないことを強調する。
より広いコミュニティがこれらのツールや手法を活用して、誰もがアクセス可能で公平な医療を促進するLLMの共通の目標を実現することを願っています。
関連論文リスト
- A Mixed-Methods Evaluation of LLM-Based Chatbots for Menopause [7.156867036177255]
医療環境におけるLLM(Large Language Models)の統合は注目されている。
更年期関連問合せのためのLLMベースのチャットボットの性能について検討する。
本研究は,健康トピックに対する従来の評価指標の約束と限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-05T19:56:52Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Fairness in Computational Innovations: Identifying Bias in Substance Use Treatment Length of Stay Prediction Models with Policy Implications [0.477529483515826]
予測機械学習(英: Predictive Machine Learning, ML)は、医学的意思決定を強化する計算技術である。
しかし、社会的バイアスはそのようなモデルにエンコードすることができ、不利なグループの健康結果に不注意に影響を及ぼす懸念を提起する。
この問題は、物質使用障害(SUD)の治療の文脈において特に重要であり、予測モデルのバイアスは、非常に脆弱な患者の回復に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2024-12-08T06:47:23Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering [14.198330378235632]
我々は,3つのジェネラリストと3つの専門的なバイオメディカルサブドメインにおいて,22のデータセットに関する大規模な実験研究を行うために,複数選択と抽象質問応答を用いた。
15個のLLMの性能の多面的解析により、リコールや理解の向上につながる命令チューニングなどの成功要因が明らかになった。
最近提案されたドメイン適応モデルには十分な知識が欠如している可能性があるが、収集した医療知識データセットを直接微調整することは、奨励的な結果を示している。
我々は、必要な知識を単に思い出し、提示された知識と統合するモデルの能力の間に大きなギャップがあることを明らかにする、スキル指向手動エラー解析で定量的結果を補完する。
論文 参考訳(メタデータ) (2024-06-06T02:43:21Z) - Evaluating large language models in medical applications: a survey [1.5923327069574245]
大規模言語モデル(LLM)は、多くのドメインにまたがる変換可能性を持つ強力なツールとして登場した。
医学的文脈におけるLCMのパフォーマンスを評価することは、医療情報の複雑で批判的な性質から、ユニークな課題を提示する。
論文 参考訳(メタデータ) (2024-05-13T05:08:33Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z) - Fair Machine Learning in Healthcare: A Review [90.22219142430146]
我々は、機械学習と医療格差における公正性の交差を分析する。
機械学習の観点から、関連する公正度メトリクスを批判的にレビューする。
本稿では,医療における倫理的かつ公平なMLアプリケーション開発を約束する新たな研究指針を提案する。
論文 参考訳(メタデータ) (2022-06-29T04:32:10Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。