論文の概要: Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information
- arxiv url: http://arxiv.org/abs/2505.06046v1
- Date: Fri, 09 May 2025 13:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.277644
- Title: Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information
- Title(参考訳): 健康 LLM ? 英国政府の公衆衛生情報の LLM 知識のベンチマーク
- Authors: Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz,
- Abstract要約: 本稿では,Large Language Models (LLMs) の評価に8000以上の疑問を呈する新しいベンチマークであるPubHealthBenchを紹介する。
我々はまた、PubHealthBenchのソーステキストとして使用される、英国政府の公衆衛生ガイダンス文書の新しいデータセットもリリースした。
- 参考スコア(独自算出の注目度): 0.42862350984126624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form responses to public health queries, created via an automated pipeline. We also release a new dataset of the extracted UK Government public health guidance documents used as source text for PubHealthBench. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Therefore, whilst there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, additional safeguards or tools may still be needed when providing free form responses on public health topics.
- Abstract(参考訳): 大規模言語モデル(LLM)が広く普及するにつれて、特定の分野における知識の詳細な理解は、実世界での使用を成功させるために必要となる。
これは公衆衛生において特に重要であり、関連する情報、正確な情報、現在の情報が得られない場合は、英国住民に大きな影響を及ぼす可能性がある。
しかし、イギリス政府の公衆衛生情報に関するLLMの知識については、現時点ではほとんど分かっていない。
そこで本研究では,LLMのMultiple Choice Question Answering (MCQA) の評価に8000以上の質問と,自動パイプラインで作成した公衆衛生クエリに対する無料のフォーム応答を備えたベンチマークPubHealthBenchを紹介する。
我々はまた、PubHealthBenchのソーステキストとして使用される、英国政府の公衆衛生ガイダンス文書の新しいデータセットもリリースした。
PubHealthBench 上で 24 LLM を評価すると、最新のプライベート LLM (GPT-4.5, GPT-4.1, o1) は高い知識を持ち、MCQA のセットアップで 90% を達成し、カーソリー検索エンジンの使用で人間を上回っている。
しかし、フリーフォーム設定では、モデルスコアが75%未満の低いパフォーマンスが見られます。
したがって、最先端(SOTA)のLSMが公衆衛生情報の正確な情報源であることを示す有望な兆候がある一方で、公衆衛生のトピックに対して無料のフォーム応答を提供する際には、追加のセーフガードやツールが必要である可能性がある。
関連論文リスト
- Evaluating Large Language Models for Public Health Classification and Extraction Tasks [0.3545046504280562]
本稿では,自由テキストの分類と抽出を含む公衆衛生業務におけるLarge Language Models(LLMs)の評価について述べる。
ゼロショット・イン・コンテクスト学習を用いて,全タスクにまたがるオープンウェイトLLMを11個評価した。
LLMが公衆衛生の専門家にとって、様々な無料テキストソースから情報を抽出するのに有用なツールであることを示す有望な兆候を見出した。
論文 参考訳(メタデータ) (2024-05-23T16:33:18Z) - OpenMedLM: Prompt engineering can out-perform fine-tuning in medical
question-answering with open-source large language models [4.556924372105915]
オープンソース(OS)モデルは、医療用LDMにとって重要な成長領域である。
医用ベンチマークでOS LLMに対してSOTA(State-of-the-art)パフォーマンスを提供するプロンプトプラットフォームであるOpenMedLMを提案する。
論文 参考訳(メタデータ) (2024-02-29T17:19:39Z) - Retrieval Augmented Thought Process for Private Data Handling in Healthcare [53.89406286212502]
Retrieval-Augmented Thought Process (RATP)を紹介する。
RATPは大規模言語モデル(LLM)の思考生成を定式化する
電子カルテのプライベートデータセットにおいて、RATPは、質問応答タスクのコンテキスト内検索強化生成と比較して35%の精度を達成している。
論文 参考訳(メタデータ) (2024-02-12T17:17:50Z) - Understanding the concerns and choices of public when using large language models for healthcare [17.306501965944978]
大規模言語モデル(LLM)は、生体医学分野におけるその可能性を示している。
医学的Q&A、自己診断、日々の医療情報検索などの医療目的にどのように使用されるかは、未調査である。
論文 参考訳(メタデータ) (2024-01-17T09:51:32Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Quantifying Self-diagnostic Atomic Knowledge in Chinese Medical Foundation Model: A Computational Analysis [55.742339781494046]
ファンデーションモデル(FM)は、直接的で効率的な提案を提供することで、ユーザーが検索エンジンを通して自己診断する方法に革命をもたらす可能性がある。
近年の研究では、GPT-4で評価されたFMの品質や、医学試験に合格する能力に焦点が当てられている。
FMの記憶に蓄えられた自己診断的原子知識の程度を定量化する研究はない。
論文 参考訳(メタデータ) (2023-10-18T05:42:22Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。