論文の概要: How well do LLMs cite relevant medical references? An evaluation
framework and analyses
- arxiv url: http://arxiv.org/abs/2402.02008v1
- Date: Sat, 3 Feb 2024 03:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:49:00.659011
- Title: How well do LLMs cite relevant medical references? An evaluation
framework and analyses
- Title(参考訳): LLMは関連する医療基準をどの程度引用するか?
評価の枠組みと分析
- Authors: Kevin Wu, Eric Wu, Ally Cassasola, Angela Zhang, Kevin Wei, Teresa
Nguyen, Sith Riantawan, Patricia Shi Riantawan, Daniel E. Ho, James Zou
- Abstract要約: 大規模言語モデル(LLM)は現在、様々な臨床領域の医療的問題に答えるために使用されている。
本稿では、LCMが生成するソースは、実際にそれらが生成するクレームをサポートしますか?
GPT-4は, 医師会の88%の時間と一致し, 情報源の妥当性を高い精度で検証できることを実証した。
- 参考スコア(独自算出の注目度): 18.1921791355309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are currently being used to answer medical
questions across a variety of clinical domains. Recent top-performing
commercial LLMs, in particular, are also capable of citing sources to support
their responses. In this paper, we ask: do the sources that LLMs generate
actually support the claims that they make? To answer this, we propose three
contributions. First, as expert medical annotations are an expensive and
time-consuming bottleneck for scalable evaluation, we demonstrate that GPT-4 is
highly accurate in validating source relevance, agreeing 88% of the time with a
panel of medical doctors. Second, we develop an end-to-end, automated pipeline
called \textit{SourceCheckup} and use it to evaluate five top-performing LLMs
on a dataset of 1200 generated questions, totaling over 40K pairs of statements
and sources. Interestingly, we find that between ~50% to 90% of LLM responses
are not fully supported by the sources they provide. We also evaluate GPT-4
with retrieval augmented generation (RAG) and find that, even still, around
30\% of individual statements are unsupported, while nearly half of its
responses are not fully supported. Third, we open-source our curated dataset of
medical questions and expert annotations for future evaluations. Given the
rapid pace of LLM development and the potential harms of incorrect or outdated
medical information, it is crucial to also understand and quantify their
capability to produce relevant, trustworthy medical references.
- Abstract(参考訳): 大規模言語モデル(LLM)は現在、様々な臨床領域の医療的問題に答えるために使用されている。
近年の商業用LLMは、特に、その応答をサポートするためにソースを引用する能力がある。
本稿では、LCMが生成するソースは、実際にそれらが生成するクレームをサポートしますか?
これに答えるために、我々は3つの貢献を提案します。
まず,専門家の医療アノテーションは,スケーラブルな評価のために高価かつ時間を要するボトルネックとなるため,GPT-4は情報源の妥当性を検証する上で極めて正確であり,医師会の88%と一致していることを示す。
第2に, エンドツーエンドで自動化されたパイプラインである‘textit{SourceCheckup} を開発し, 1200件の質問から上位5つのLLMを評価し, 合計40万組のステートメントとソースを収集した。
興味深いことに、LLM応答の約50%から90%は、それらが提供するソースによって完全にはサポートされていない。
また,検索拡張生成(RAG)によるGPT-4の評価を行い,回答の約半数が完全にはサポートされていないにもかかわらず,個々の文の約30%がサポートされていないことを確認した。
第3に、今後の評価のために、キュレートされた医療質問と専門家アノテーションのデータセットをオープンソース化する。
LLMの急速な発展と、誤った医療情報や時代遅れの医療情報の潜在的影響を考えると、関連性があり信頼できる医療基準を作成する能力についても理解と定量化が不可欠である。
関連論文リスト
- Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs [55.05394799820403]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文 参考訳(メタデータ) (2024-01-23T22:03:51Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training
Regime and Better Alignment to Human Preferences [55.42521181558716]
中国医学領域向けに設計された新しいベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、コンテキスト長を4,096トークンに拡大し、事前トレーニング、SFT、RLHFを含む総合的なトレーニング体制を実行している。
情報抽出,質問応答,対話生成などの実世界のタスクの評価は,一般的なドメインLLMよりもChiMed-GPTの方が優れた性能を示している。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - A Survey of Large Language Models in Medicine: Progress, Application,
and Challenge [86.4234483148876]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Augmenting Black-box LLMs with Medical Textbooks for Clinical Question
Answering [54.13933019557655]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese
Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。
CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。
LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文 参考訳(メタデータ) (2023-06-05T16:48:41Z) - Appraising the Potential Uses and Harms of LLMs for Medical Systematic
Reviews [21.546144601311187]
大規模言語モデル(LLM)は、必要に応じて文献レビューを自動的に生成する可能性がある。
LLMは幻覚や省略によって不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
論文 参考訳(メタデータ) (2023-05-19T17:09:19Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。