論文の概要: MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering
- arxiv url: http://arxiv.org/abs/2406.06573v1
- Date: Mon, 3 Jun 2024 18:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 00:04:06.905005
- Title: MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering
- Title(参考訳): MedFuzz: 医療質問応答における大規模言語モデルのロバスト性を探る
- Authors: Robert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz,
- Abstract要約: 大規模言語モデル (LLM) は、医学的質問応答ベンチマークにおいて優れたパフォーマンスを達成している。
我々は、"MedFuzzed"ベンチマークでのパフォーマンスの使用方法と、個々の攻撃の成功例を示します。
- 参考スコア(独自算出の注目度): 24.258546825446324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLM) have achieved impressive performance on medical question-answering benchmarks. However, high benchmark accuracy does not imply that the performance generalizes to real-world clinical settings. Medical question-answering benchmarks rely on assumptions consistent with quantifying LLM performance but that may not hold in the open world of the clinic. Yet LLMs learn broad knowledge that can help the LLM generalize to practical conditions regardless of unrealistic assumptions in celebrated benchmarks. We seek to quantify how well LLM medical question-answering benchmark performance generalizes when benchmark assumptions are violated. Specifically, we present an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz attempts to modify benchmark questions in ways aimed at confounding the LLM. We demonstrate the approach by targeting strong assumptions about patient characteristics presented in the MedQA benchmark. Successful "attacks" modify a benchmark item in ways that would be unlikely to fool a medical expert but nonetheless "trick" the LLM into changing from a correct to an incorrect answer. Further, we present a permutation test technique that can ensure a successful attack is statistically significant. We show how to use performance on a "MedFuzzed" benchmark, as well as individual successful attacks. The methods show promise at providing insights into the ability of an LLM to operate robustly in more realistic settings.
- Abstract(参考訳): 大規模言語モデル (LLM) は、医学的質問応答ベンチマークにおいて優れたパフォーマンスを達成している。
しかし、高いベンチマーク精度は、実際の臨床環境にパフォーマンスが一般化することを意味するものではない。
医学的質問答えベンチマークは、LLMのパフォーマンスの定量化と整合した仮定に頼っているが、クリニックのオープンワールドには当てはまらないかもしれない。
しかし、LLMは、著名なベンチマークにおける非現実的な仮定に関係なく、LLMが実践的な条件に一般化するのに役立つ幅広い知識を学習する。
我々は, LLM の医学的質問応答ベンチマークの性能が, ベンチマークの仮定に違反した場合にどのように一般化するかを定量化する。
具体的には,MedFuzz(医療ファズリング)と呼ぶ逆法を提案する。
MedFuzz は LLM のコンバウンドを目的とした方法でベンチマークの問題を修正しようと試みている。
MedQAベンチマークで提示された患者特性に関する強い仮定をターゲットとして,本手法を実証する。
成功した"アタック"は、ベンチマーク項目を医療専門家を騙す可能性が低い方法で修正するが、にもかかわらず、LSMを正しい回答から間違った回答に変更させる"トリック"を行う。
さらに,攻撃を成功させることが統計的に重要であることを示すための置換試験手法を提案する。
我々は、"MedFuzzed"ベンチマークでのパフォーマンスの使用方法と、個々の攻撃の成功例を示します。
これらの手法は、LLMがより現実的な環境で堅牢に動作する能力についての洞察を提供することを約束している。
関連論文リスト
- A Benchmark for Long-Form Medical Question Answering [4.815957808858573]
長期医療質問応答(QA)における大規模言語モデル(LLM)の評価のためのベンチマークの欠如
既存のQA評価ベンチマークのほとんどは、自動メトリクスと複数項目の質問に焦点を当てている。
本研究は,医科医が注釈を付した長文回答評価を伴う現実の消費者医療質問を特徴とする,新たに公開されたベンチマークを提案する。
論文 参考訳(メタデータ) (2024-11-14T22:54:38Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。
この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。
ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文 参考訳(メタデータ) (2024-06-20T04:35:59Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning [36.400896909161006]
我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。
LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
論文 参考訳(メタデータ) (2024-06-03T01:32:52Z) - OpenMedLM: Prompt engineering can out-perform fine-tuning in medical
question-answering with open-source large language models [4.556924372105915]
オープンソース(OS)モデルは、医療用LDMにとって重要な成長領域である。
医用ベンチマークでOS LLMに対してSOTA(State-of-the-art)パフォーマンスを提供するプロンプトプラットフォームであるOpenMedLMを提案する。
論文 参考訳(メタデータ) (2024-02-29T17:19:39Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - MKRAG: Medical Knowledge Retrieval Augmented Generation for Medical Question Answering [45.84961106102445]
大規模言語モデル(LLM)は、医療質問応答(QA)のようなドメイン固有のタスクでよく機能しないことが多い。
本稿では,医学的事実を外部知識ベースから抽出し,LLMのクエリプロンプトに注入するための総合的検索手法を提案する。
Vicuna-7Bは44.46%から48.54%の精度向上を示した。
論文 参考訳(メタデータ) (2023-09-27T21:26:03Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。