論文の概要: GPBench: A Comprehensive and Fine-Grained Benchmark for Evaluating Large Language Models as General Practitioners
- arxiv url: http://arxiv.org/abs/2503.17599v1
- Date: Sat, 22 Mar 2025 01:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:22.130343
- Title: GPBench: A Comprehensive and Fine-Grained Benchmark for Evaluating Large Language Models as General Practitioners
- Title(参考訳): GPBench: 汎用的な言語モデル評価のための包括的できめ細かいベンチマーク
- Authors: Zheqing Li, Yiying Yang, Jiping Lang, Wenhao Jiang, Yuhang Zhao, Shuang Li, Dingqian Wang, Zhu Lin, Xuanna Li, Yuze Tang, Jiexian Qiu, Xiaolin Lu, Hongji Yu, Shuang Chen, Yuhua Bi, Xiaofei Zeng, Yixian Chen, Junrong Chen, Lin Yao,
- Abstract要約: 一般開業医(GP)は、継続的かつ包括的な医療サービスを提供することで、一次医療システムの基盤として機能する。
実践のコミュニティ指向性、トレーニングの不均一さ、リソースギャップのため、GP間の臨床習熟度は地域や医療環境によって大きく異なる可能性がある。
大言語モデル(LLM)は臨床および医学応用において大きな可能性を示しており、一般的な実践を支援するための有望なツールとなっている。
GPの日常業務においてLLMがいかに効果的に意思決定できるかを評価するため,GPBenchを設計した。
- 参考スコア(独自算出の注目度): 12.208184074411896
- License:
- Abstract: General practitioners (GPs) serve as the cornerstone of primary healthcare systems by providing continuous and comprehensive medical services. However, due to community-oriented nature of their practice, uneven training and resource gaps, the clinical proficiency among GPs can vary significantly across regions and healthcare settings. Currently, Large Language Models (LLMs) have demonstrated great potential in clinical and medical applications, making them a promising tool for supporting general practice. However, most existing benchmarks and evaluation frameworks focus on exam-style assessments-typically multiple-choice question-lack comprehensive assessment sets that accurately mirror the real-world scenarios encountered by GPs. To evaluate how effectively LLMs can make decisions in the daily work of GPs, we designed GPBench, which consists of both test questions from clinical practice and a novel evaluation framework. The test set includes multiple-choice questions that assess fundamental knowledge of general practice, as well as realistic, scenario-based problems. All questions are meticulously annotated by experts, incorporating rich fine-grained information related to clinical management. The proposed LLM evaluation framework is based on the competency model for general practice, providing a comprehensive methodology for assessing LLM performance in real-world settings. As the first large-model evaluation set targeting GP decision-making scenarios, GPBench allows us to evaluate current mainstream LLMs. Expert assessment and evaluation reveal that in areas such as disease staging, complication recognition, treatment detail, and medication usage, these models exhibit at least ten major shortcomings. Overall, existing LLMs are not yet suitable for independent use in real-world GP working scenarios without human oversight.
- Abstract(参考訳): 一般開業医(GP)は、継続的かつ包括的な医療サービスを提供することで、一次医療システムの基盤として機能する。
しかし、その実践のコミュニティ指向性、トレーニングの不均一さ、リソースギャップのため、GP間の臨床習熟度は地域や医療環境によって大きく異なる可能性がある。
現在、LLM(Large Language Models)は、臨床および医学応用において大きな可能性を示しており、一般的な実践を支援するための有望なツールとなっている。
しかし、既存のベンチマークや評価フレームワークのほとんどは、GPが遭遇する現実のシナリオを正確に反映した試験スタイルの評価(典型的には複数選択の質問-欠如した総合的な評価セット)に焦点を当てている。
GP の日常業務において LLM がいかに効果的に意思決定できるかを評価するため,GPBench を設計した。
テストセットには、現実的なシナリオベースの問題だけでなく、一般的なプラクティスの基本的な知識を評価する、複数の選択の質問が含まれている。
あらゆる質問は、専門家によって慎重に注釈付けされ、臨床管理に関する豊富なきめ細かい情報を取り入れている。
提案するLCM評価フレームワークは,実環境におけるLCM性能を評価するための総合的な方法論を提供する。
GPBenchはGP決定シナリオを対象とする最初の大規模モデル評価セットとして,現在主流のLCMを評価できる。
専門的な評価と評価は、疾患のステージング、合併症の認識、治療の詳細、薬物使用などにおいて、これらのモデルが少なくとも10の重大な欠点を示すことを示している。
全体として、既存のLLMは人間の監視なしに現実のGP作業シナリオで独立して使用するには相応しいものではない。
関連論文リスト
- OphthBench: A Comprehensive Benchmark for Evaluating Large Language Models in Chinese Ophthalmology [7.743511021846898]
大規模言語モデル(LLM)は、様々な医学的応用において大きな可能性を示してきた。
我々は,中国の眼科領域におけるLCM性能を評価するためのベンチマークであるOphthBenchを紹介した。
この枠組みは、LSMの能力の徹底的な評価を可能にし、中国の眼科におけるその実践的応用に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-02-03T11:04:51Z) - Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation [31.061600616994145]
HDCEvalは、専門医とのコラボレーションによって開発された、きめ細かい医療評価ガイドラインに基づいて構築されている。
このフレームワークは複雑な評価タスクを専門的なサブタスクに分解し、それぞれがエキスパートモデルによって評価される。
この階層的なアプローチは、評価の各側面が専門家の精度で扱われることを保証する。
論文 参考訳(メタデータ) (2025-01-12T07:30:49Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。
医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。
その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-09-11T14:44:51Z) - MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。
まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。
第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文 参考訳(メタデータ) (2024-06-24T02:25:48Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Evaluation of General Large Language Models in Contextually Assessing
Semantic Concepts Extracted from Adult Critical Care Electronic Health Record
Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。
GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文 参考訳(メタデータ) (2024-01-24T16:52:37Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。