Fugu-MT 論文翻訳(概要): Enabling Scalable Evaluation of Bias Patterns in Medical LLMs

論文の概要: Enabling Scalable Evaluation of Bias Patterns in Medical LLMs

arxiv url: http://arxiv.org/abs/2410.14763v1
Date: Fri, 18 Oct 2024 14:17:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.689821
Title: Enabling Scalable Evaluation of Bias Patterns in Medical LLMs
Title（参考訳）: 医療用LLMにおけるバイアスパターンのスケーラブルな評価
Authors: Hamed Fayyaz, Raphael Poulain, Rahmatollah Beheshti,
Abstract要約: 大規模言語モデル(LLMs)は、多くの医学的課題に大きく貢献する可能性を示している。主な関心領域の1つは、医学的応用におけるLSMの偏りのある行動に関連しており、個人の不公平な治療につながっている。本稿では,厳密な医学的証拠に基づく検査ケースの自動生成により,そのようなバイアス評価をスケールアップする手法を提案する。
参考スコア（独自算出の注目度）: 2.089191490381739
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown impressive potential in helping with numerous medical challenges. Deploying LLMs in high-stakes applications such as medicine, however, brings in many concerns. One major area of concern relates to biased behaviors of LLMs in medical applications, leading to unfair treatment of individuals. To pave the way for the responsible and impactful deployment of Med LLMs, rigorous evaluation is a key prerequisite. Due to the huge complexity and variability of different medical scenarios, existing work in this domain has primarily relied on using manually crafted datasets for bias evaluation. In this study, we present a new method to scale up such bias evaluations by automatically generating test cases based on rigorous medical evidence. We specifically target the challenges of a) domain-specificity of bias characterization, b) hallucinating while generating the test cases, and c) various dependencies between the health outcomes and sensitive attributes. To that end, we offer new methods to address these challenges integrated with our generative pipeline, using medical knowledge graphs, medical ontologies, and customized general LLM evaluation frameworks in our method. Through a series of extensive experiments, we show that the test cases generated by our proposed method can effectively reveal bias patterns in Med LLMs at larger and more flexible scales than human-crafted datasets. We publish a large bias evaluation dataset using our pipeline, which is dedicated to a few medical case studies. A live demo of our application for vignette generation is available at https://vignette.streamlit.app. Our code is also available at https://github.com/healthylaife/autofair.
Abstract（参考訳）: 大規模言語モデル(LLMs)は、多くの医学的課題に大きく貢献する可能性を示している。しかし、医学などの高度な応用にLLMを配備することは、多くの懸念をもたらす。主な関心領域の1つは、医学的応用におけるLSMの偏りのある行動に関連しており、個人の不公平な治療につながっている。 Med LLMの責任と影響の大きい展開の道を開くためには、厳密な評価が重要な前提条件である。さまざまな医療シナリオの複雑さと多様性のため、この領域の既存の作業は主に、手作業によるデータセットによるバイアス評価に頼っている。本研究では,厳密な医学的証拠に基づく検査ケースの自動生成により,そのようなバイアス評価をスケールアップする手法を提案する。私たちは特に課題を目標にしています a) バイアス特性の領域特異性ロ試験ケースを発生させながら幻覚をすること。 c) 健康結果と敏感な属性の間の様々な依存関係。そこで本手法では,医療知識グラフ,医療オントロジー,LLM評価フレームワークのカスタマイズなど,これらの課題を生成パイプラインに統合する新たな手法を提案する。提案手法によって生成されたテストケースは,人為的なデータセットよりも大規模で柔軟なスケールで,MDD LLMのバイアスパターンを効果的に明らかにすることができることを示す。私たちは、いくつかの医学ケーススタディに特化しているパイプラインを使用して、大規模なバイアス評価データセットを公開します。 vignette生成のためのアプリケーションのライブデモがhttps://vignette.streamlit.app.comで公開されている。私たちのコードはhttps://github.com/healthylaife/autofair.comで公開されています。

関連論文リスト

Tell Me You're Biased Without Telling Me You're Biased -- Toward Revealing Implicit Biases in Medical LLMs [1.7166356507622822]
医学応用で使用される大きな言語モデル(LLM)は偏見と不公平なパターンを示すことが知られている。影響を効果的に緩和するためには、これらのバイアスパターンを特定することが重要です。本稿では,知識グラフ(KG)と補助LDMを組み合わせることで,複雑なバイアスパターンを体系的に明らかにする新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-07-26T02:33:48Z)
Bias in Large Language Models Across Clinical Applications: A Systematic Review [0.0]
大規模言語モデル(LLM)は、医療に急速に統合され、様々な臨床業務を強化することを約束している。本研究は, LLMの有病率, 出所, 徴候, 臨床的意義について検討する。
論文参考訳（メタデータ） (2025-04-03T13:32:08Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
How Can We Diagnose and Treat Bias in Large Language Models for Clinical Decision-Making? [2.7476176772825904]
本研究では,大規模言語モデル(LLM)におけるバイアスの評価と緩和について検討する。本稿では,JAMAクリニカルチャレンジから得られた新しいCPVデータセットについて紹介する。このデータセットを用いて、複数の選択質問(MCQ)とそれに対応する説明を併用し、バイアス評価のためのフレームワークを構築した。
論文参考訳（メタデータ） (2024-10-21T23:14:10Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Aligning (Medical) LLMs for (Counterfactual) Fairness [2.089191490381739]
大規模言語モデル(LLM)は、医療および臨床決定支援アプリケーションのための有望なソリューションとして登場した。 LLMは様々な種類のバイアスを受けており、個人の不公平な扱い、健康格差の悪化、AIが強化された医療ツールへの信頼の低下につながる可能性がある。本稿では, 知識蒸留フレームワークにおける優先最適化手法を用いて, LLMの整列化のための新しいモデルアライメント手法を提案する。
論文参考訳（メタデータ） (2024-08-22T01:11:27Z)
A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文参考訳（メタデータ） (2024-06-05T13:40:07Z)
Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文参考訳（メタデータ） (2024-02-05T08:25:22Z)
Distilling Large Language Models for Matching Patients to Clinical Trials [3.4068841624198942]
近年の大規模言語モデル(LLMs)の成功は、医療分野における彼らの採用の道を開いた。本研究は,患者と臨床の整合性に対するプロプライエタリ (GPT-3.5, GPT-4) とオープンソース LLM (LLAMA 7B, 13B, 70B) の併用性について,最初の系統的検討を行った。この制限された合成データセットを微調整したオープンソースのLLMは、プロプライエタリなデータセットと同等の性能を示した。
論文参考訳（メタデータ） (2023-12-15T17:11:07Z)
Extrinsically-Focused Evaluation of Omissions in Medical Summarization [9.847304366680772]
大規模言語モデル(LLM)は、医療などの安全クリティカルなアプリケーションにおいて有望であるが、パフォーマンスを定量化する能力は低下している。 MED-OMITは患者の医療記録の要約を評価するための指標として提案される。
論文参考訳（メタデータ） (2023-11-14T16:46:15Z)
Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。 OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文参考訳（メタデータ） (2023-07-27T20:36:02Z)
Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文参考訳（メタデータ） (2023-04-21T11:54:44Z)
Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文参考訳（メタデータ） (2022-12-26T14:28:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。