論文の概要: How well do LLMs cite relevant medical references? An evaluation
framework and analyses
- arxiv url: http://arxiv.org/abs/2402.02008v1
- Date: Sat, 3 Feb 2024 03:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:49:00.659011
- Title: How well do LLMs cite relevant medical references? An evaluation
framework and analyses
- Title(参考訳): LLMは関連する医療基準をどの程度引用するか?
評価の枠組みと分析
- Authors: Kevin Wu, Eric Wu, Ally Cassasola, Angela Zhang, Kevin Wei, Teresa
Nguyen, Sith Riantawan, Patricia Shi Riantawan, Daniel E. Ho, James Zou
- Abstract要約: 大規模言語モデル(LLM)は現在、様々な臨床領域の医療的問題に答えるために使用されている。
本稿では、LCMが生成するソースは、実際にそれらが生成するクレームをサポートしますか?
GPT-4は, 医師会の88%の時間と一致し, 情報源の妥当性を高い精度で検証できることを実証した。
- 参考スコア(独自算出の注目度): 18.1921791355309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are currently being used to answer medical
questions across a variety of clinical domains. Recent top-performing
commercial LLMs, in particular, are also capable of citing sources to support
their responses. In this paper, we ask: do the sources that LLMs generate
actually support the claims that they make? To answer this, we propose three
contributions. First, as expert medical annotations are an expensive and
time-consuming bottleneck for scalable evaluation, we demonstrate that GPT-4 is
highly accurate in validating source relevance, agreeing 88% of the time with a
panel of medical doctors. Second, we develop an end-to-end, automated pipeline
called \textit{SourceCheckup} and use it to evaluate five top-performing LLMs
on a dataset of 1200 generated questions, totaling over 40K pairs of statements
and sources. Interestingly, we find that between ~50% to 90% of LLM responses
are not fully supported by the sources they provide. We also evaluate GPT-4
with retrieval augmented generation (RAG) and find that, even still, around
30\% of individual statements are unsupported, while nearly half of its
responses are not fully supported. Third, we open-source our curated dataset of
medical questions and expert annotations for future evaluations. Given the
rapid pace of LLM development and the potential harms of incorrect or outdated
medical information, it is crucial to also understand and quantify their
capability to produce relevant, trustworthy medical references.
- Abstract(参考訳): 大規模言語モデル(LLM)は現在、様々な臨床領域の医療的問題に答えるために使用されている。
近年の商業用LLMは、特に、その応答をサポートするためにソースを引用する能力がある。
本稿では、LCMが生成するソースは、実際にそれらが生成するクレームをサポートしますか?
これに答えるために、我々は3つの貢献を提案します。
まず,専門家の医療アノテーションは,スケーラブルな評価のために高価かつ時間を要するボトルネックとなるため,GPT-4は情報源の妥当性を検証する上で極めて正確であり,医師会の88%と一致していることを示す。
第2に, エンドツーエンドで自動化されたパイプラインである‘textit{SourceCheckup} を開発し, 1200件の質問から上位5つのLLMを評価し, 合計40万組のステートメントとソースを収集した。
興味深いことに、LLM応答の約50%から90%は、それらが提供するソースによって完全にはサポートされていない。
また,検索拡張生成(RAG)によるGPT-4の評価を行い,回答の約半数が完全にはサポートされていないにもかかわらず,個々の文の約30%がサポートされていないことを確認した。
第3に、今後の評価のために、キュレートされた医療質問と専門家アノテーションのデータセットをオープンソース化する。
LLMの急速な発展と、誤った医療情報や時代遅れの医療情報の潜在的影響を考えると、関連性があり信頼できる医療基準を作成する能力についても理解と定量化が不可欠である。
関連論文リスト
- Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。
私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。
LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文 参考訳(メタデータ) (2024-10-30T17:02:54Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions [0.0]
大規模言語モデル(LLM)が最近,ユーザの質問に対するオンライン回答の主要なソースになっている。
雄弁な答えを提供する能力があるにもかかわらず、その正確さと信頼性は重大な課題となる。
本稿では, バイオメディカル検索強化生成システム(RAG)を導入し, 生成した応答の信頼性を高める。
論文 参考訳(メタデータ) (2024-07-06T09:10:05Z) - Answering real-world clinical questions using large language model based systems [2.2605659089865355]
大規模言語モデル(LLM)は、出版された文献を要約するか、実世界データ(RWD)に基づいた新しい研究を生成することによって、両方の課題に対処できる可能性がある。
臨床50問に回答する5つのLCMベースのシステムについて検討し,9名の医師に関連性,信頼性,行動性について検討した。
論文 参考訳(メタデータ) (2024-06-29T22:39:20Z) - MedExQA: Medical Question Answering Benchmark with Multiple Explanations [2.2246416434538308]
本稿では,MedExQAについて紹介する。MedExQAは,医学的知識に関する大規模言語モデル (LLM) の理解を説明を通じて評価するための,医学的質問応答の新しいベンチマークである。
5つの異なる医療専門分野のデータセットを構築することで、現在の医療QAベンチマークの大きなギャップに対処する。
本研究は、医学LLMにおける説明可能性の重要性を強調し、分類精度以上のモデルを評価する効果的な方法論を提案し、特定の分野である音声言語病理学に光を当てる。
論文 参考訳(メタデータ) (2024-06-10T14:47:04Z) - OLAPH: Improving Factuality in Biomedical Long-form Question Answering [15.585833125854418]
MedLFQAは、バイオメディカルドメインに関連する長文質問回答データセットを用いて再構成されたベンチマークデータセットである。
また,コスト効率と多面的自動評価を利用した,シンプルで斬新なフレームワークであるOLAPHを提案する。
以上の結果から,OLAPHフレームワークでトレーニングした7B LLMでは,医療専門家の回答に匹敵する回答が得られた。
論文 参考訳(メタデータ) (2024-05-21T11:50:16Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Appraising the Potential Uses and Harms of LLMs for Medical Systematic
Reviews [21.546144601311187]
大規模言語モデル(LLM)は、必要に応じて文献レビューを自動的に生成する可能性がある。
LLMは幻覚や省略によって不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
論文 参考訳(メタデータ) (2023-05-19T17:09:19Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。