Fugu-MT 論文翻訳(概要): Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

論文の概要: Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

arxiv url: http://arxiv.org/abs/2505.06046v1
Date: Fri, 09 May 2025 13:42:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-12 20:40:10.277644
Title: Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information
Title（参考訳）: 健康 LLM ? 英国政府の公衆衛生情報の LLM 知識のベンチマーク
Authors: Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz,
Abstract要約: 本稿では,Large Language Models (LLMs) の評価に8000以上の疑問を呈する新しいベンチマークであるPubHealthBenchを紹介する。我々はまた、PubHealthBenchのソーステキストとして使用される、英国政府の公衆衛生ガイダンス文書の新しいデータセットもリリースした。
参考スコア（独自算出の注目度）: 0.42862350984126624
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form responses to public health queries, created via an automated pipeline. We also release a new dataset of the extracted UK Government public health guidance documents used as source text for PubHealthBench. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Therefore, whilst there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, additional safeguards or tools may still be needed when providing free form responses on public health topics.
Abstract（参考訳）: 大規模言語モデル(LLM)が広く普及するにつれて、特定の分野における知識の詳細な理解は、実世界での使用を成功させるために必要となる。これは公衆衛生において特に重要であり、関連する情報、正確な情報、現在の情報が得られない場合は、英国住民に大きな影響を及ぼす可能性がある。しかし、イギリス政府の公衆衛生情報に関するLLMの知識については、現時点ではほとんど分かっていない。そこで本研究では,LLMのMultiple Choice Question Answering (MCQA) の評価に8000以上の質問と,自動パイプラインで作成した公衆衛生クエリに対する無料のフォーム応答を備えたベンチマークPubHealthBenchを紹介する。我々はまた、PubHealthBenchのソーステキストとして使用される、英国政府の公衆衛生ガイダンス文書の新しいデータセットもリリースした。 PubHealthBench 上で 24 LLM を評価すると、最新のプライベート LLM (GPT-4.5, GPT-4.1, o1) は高い知識を持ち、MCQA のセットアップで 90% を達成し、カーソリー検索エンジンの使用で人間を上回っている。しかし、フリーフォーム設定では、モデルスコアが75%未満の低いパフォーマンスが見られます。したがって、最先端(SOTA)のLSMが公衆衛生情報の正確な情報源であることを示す有望な兆候がある一方で、公衆衛生のトピックに対して無料のフォーム応答を提供する際には、追加のセーフガードやツールが必要である可能性がある。

関連論文リスト

Dr. GPT Will See You Now, but Should It? Exploring the Benefits and Harms of Large Language Models in Medical Diagnosis using Crowdsourced Clinical Cases [7.894865736540358]
大規模言語モデル(LLMs)は、医学(自己診断)や予備的トリアージなどの高度な応用に用いられている。本稿では, LLMの有効性を評価するために, クラウドソーシングによる新たなアプローチを活用した大学レベルのコンペから得られた知見について述べる。
論文参考訳（メタデータ） (2025-06-13T17:12:47Z)
MIRIAD: Augmenting LLMs with millions of medical query-response pairs [36.32674607022871]
医療用QAペア5,821,948の大規模キュレートコーパスであるMIRIADを紹介する。また,MIRIADの精度はRAGベースラインに比べて6.7%向上した。 56の医学分野にまたがるMIRIADのインタラクティブマップであるMIRIAD-Atlasについても紹介する。
論文参考訳（メタデータ） (2025-06-06T13:52:32Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
Evaluating Large Language Models for Public Health Classification and Extraction Tasks [0.3545046504280562]
本稿では,自由テキストの分類と抽出を含む公衆衛生業務におけるLarge Language Models(LLMs)の評価について述べる。ゼロショット・イン・コンテクスト学習を用いて,全タスクにまたがるオープンウェイトLLMを11個評価した。 LLMが公衆衛生の専門家にとって、様々な無料テキストソースから情報を抽出するのに有用なツールであることを示す有望な兆候を見出した。
論文参考訳（メタデータ） (2024-05-23T16:33:18Z)
Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering [67.94354589215637]
大きな言語モデル(LLM)は知識探索に広く用いられているが、幻覚に悩まされている。本稿では,LLMの知識境界(KB)を半オープンな質問(SoeQ)で知覚する。 GPT-4 は SoeQ では性能が悪く,KB に気づいていないことが多い。我々の補助モデルであるLLaMA-2-13Bは、より曖昧な答えを見つけるのに有効である。
論文参考訳（メタデータ） (2024-05-23T10:00:14Z)
OpenMedLM: Prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models [4.556924372105915]
オープンソース(OS)モデルは、医療用LDMにとって重要な成長領域である。医用ベンチマークでOS LLMに対してSOTA(State-of-the-art)パフォーマンスを提供するプロンプトプラットフォームであるOpenMedLMを提案する。
論文参考訳（メタデータ） (2024-02-29T17:19:39Z)
Retrieval Augmented Thought Process for Private Data Handling in Healthcare [53.89406286212502]
Retrieval-Augmented Thought Process (RATP)を紹介する。 RATPは大規模言語モデル(LLM)の思考生成を定式化する電子カルテのプライベートデータセットにおいて、RATPは、質問応答タスクのコンテキスト内検索強化生成と比較して35%の精度を達成している。
論文参考訳（メタデータ） (2024-02-12T17:17:50Z)
Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
Understanding the concerns and choices of public when using large language models for healthcare [17.306501965944978]
大規模言語モデル(LLM)は、生体医学分野におけるその可能性を示している。医学的Q&A、自己診断、日々の医療情報検索などの医療目的にどのように使用されるかは、未調査である。
論文参考訳（メタデータ） (2024-01-17T09:51:32Z)
A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文参考訳（メタデータ） (2023-11-09T02:55:58Z)
Quantifying Self-diagnostic Atomic Knowledge in Chinese Medical Foundation Model: A Computational Analysis [55.742339781494046]
ファンデーションモデル(FM)は、直接的で効率的な提案を提供することで、ユーザーが検索エンジンを通して自己診断する方法に革命をもたらす可能性がある。近年の研究では、GPT-4で評価されたFMの品質や、医学試験に合格する能力に焦点が当てられている。 FMの記憶に蓄えられた自己診断的原子知識の程度を定量化する研究はない。
論文参考訳（メタデータ） (2023-10-18T05:42:22Z)
Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。 LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文参考訳（メタデータ） (2023-09-05T13:39:38Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。