論文の概要: Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information
- arxiv url: http://arxiv.org/abs/2505.06046v2
- Date: Thu, 15 May 2025 15:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 14:06:36.64932
- Title: Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information
- Title(参考訳): 健康 LLM ? 英国政府の公衆衛生情報の LLM 知識のベンチマーク
- Authors: Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz,
- Abstract要約: 本稿では,Large Language Models (LLMs) の評価に8000以上の疑問を呈する新しいベンチマークであるPubHealthBenchを紹介する。
我々は、現在の英国政府のガイダンス文書687から自由テキストを抽出し、MCQA(Multiple Choice Question Answering)サンプルを生成するためのパイプラインを自動実装する。
PubHealthBench 上で 24 個の LLM を評価した結果,最新の LLM には高い知識があり,MCQA セットアップの精度は 90% 以上であり,カーソリー検索エンジンによる人間よりも優れていた。
- 参考スコア(独自算出の注目度): 0.42862350984126624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form responses to public health queries. To create PubHealthBench we extract free text from 687 current UK government guidance documents and implement an automated pipeline for generating MCQA samples. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% accuracy in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Importantly we find in both setups LLMs have higher accuracy on guidance intended for the general public. Therefore, there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, but additional safeguards or tools may still be needed when providing free form responses on public health topics.
- Abstract(参考訳): 大規模言語モデル(LLM)が広く普及するにつれて、特定の分野における知識の詳細な理解は、実世界での使用を成功させるために必要となる。
これは公衆衛生において特に重要であり、関連する情報、正確な情報、現在の情報が得られない場合は、英国住民に大きな影響を及ぼす可能性がある。
しかし、イギリス政府の公衆衛生情報に関するLLMの知識については、現時点ではほとんど分かっていない。
そこで本稿では, LLMのMultiple Choice Question Answering (MCQA) の評価に8000以上の質問と, 公衆衛生クエリに対する自由なフォーム応答について, 新しいベンチマークであるPubHealthBenchを紹介する。
PubHealthBenchを作成するために、687の現在の英国政府のガイダンス文書から無償のテキストを抽出し、MCQAサンプルを生成するための自動パイプラインを実装する。
PubHealthBench 上で 24 LLM を評価すると、最新のプライベート LLM (GPT-4.5, GPT-4.1, o1) は高い知識を持ち、MCQA のセットアップで 90% の精度を達成し、カーソリー検索エンジンの使用で人間を上回っている。
しかし、フリーフォーム設定では、モデルスコアが75%未満の低いパフォーマンスが見られます。
両設定で重要な点として, LLM は一般向けガイダンスの精度が高いことがあげられる。
したがって、最先端(SOTA)のLSMが公衆衛生情報の正確化の源であることを示す有望な兆候があるが、公衆衛生のトピックに対して無料のフォーム応答を提供する際には、追加の安全確保やツールが必要である。
関連論文リスト
- Evaluating Large Language Models for Public Health Classification and Extraction Tasks [0.3545046504280562]
本稿では,自由テキストの分類と抽出を含む公衆衛生業務におけるLarge Language Models(LLMs)の評価について述べる。
ゼロショット・イン・コンテクスト学習を用いて,全タスクにまたがるオープンウェイトLLMを11個評価した。
LLMが公衆衛生の専門家にとって、様々な無料テキストソースから情報を抽出するのに有用なツールであることを示す有望な兆候を見出した。
論文 参考訳(メタデータ) (2024-05-23T16:33:18Z) - OpenMedLM: Prompt engineering can out-perform fine-tuning in medical
question-answering with open-source large language models [4.556924372105915]
オープンソース(OS)モデルは、医療用LDMにとって重要な成長領域である。
医用ベンチマークでOS LLMに対してSOTA(State-of-the-art)パフォーマンスを提供するプロンプトプラットフォームであるOpenMedLMを提案する。
論文 参考訳(メタデータ) (2024-02-29T17:19:39Z) - Retrieval Augmented Thought Process for Private Data Handling in Healthcare [53.89406286212502]
Retrieval-Augmented Thought Process (RATP)を紹介する。
RATPは大規模言語モデル(LLM)の思考生成を定式化する
電子カルテのプライベートデータセットにおいて、RATPは、質問応答タスクのコンテキスト内検索強化生成と比較して35%の精度を達成している。
論文 参考訳(メタデータ) (2024-02-12T17:17:50Z) - Understanding the concerns and choices of public when using large language models for healthcare [17.306501965944978]
大規模言語モデル(LLM)は、生体医学分野におけるその可能性を示している。
医学的Q&A、自己診断、日々の医療情報検索などの医療目的にどのように使用されるかは、未調査である。
論文 参考訳(メタデータ) (2024-01-17T09:51:32Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Quantifying Self-diagnostic Atomic Knowledge in Chinese Medical Foundation Model: A Computational Analysis [55.742339781494046]
ファンデーションモデル(FM)は、直接的で効率的な提案を提供することで、ユーザーが検索エンジンを通して自己診断する方法に革命をもたらす可能性がある。
近年の研究では、GPT-4で評価されたFMの品質や、医学試験に合格する能力に焦点が当てられている。
FMの記憶に蓄えられた自己診断的原子知識の程度を定量化する研究はない。
論文 参考訳(メタデータ) (2023-10-18T05:42:22Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。