論文の概要: ClinBench-HPB: A Clinical Benchmark for Evaluating LLMs in Hepato-Pancreato-Biliary Diseases
- arxiv url: http://arxiv.org/abs/2506.00095v3
- Date: Wed, 04 Jun 2025 03:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.49479
- Title: ClinBench-HPB: A Clinical Benchmark for Evaluating LLMs in Hepato-Pancreato-Biliary Diseases
- Title(参考訳): ClinBench-HPB : 肝・膵・胆道疾患におけるLCMの検討
- Authors: Yuchong Li, Xiaojun Zeng, Chihua Fang, Jian Yang, Fucang Jia, Lei Zhang,
- Abstract要約: 肝-膵・胆道疾患(HPB)は、その死亡率と死亡率が高いため、世界的な公衆衛生上の課題である。
大規模言語モデル(LLM)は、一般的な医学的質問応答タスクにおいて有望な性能を示しているが、現在の評価ベンチマークは主に標準化された試験や手作業による質問に由来する。
我々は,3,535件のクローズドエンド・マルチチョイス質問と337件のオープンエンド・リアル診断例からなるHPB病評価ベンチマークを系統的に評価した。
- 参考スコア(独自算出の注目度): 22.49042417871628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hepato-pancreato-biliary (HPB) disorders represent a global public health challenge due to their high morbidity and mortality. Although large language models (LLMs) have shown promising performance in general medical question-answering tasks, the current evaluation benchmarks are mostly derived from standardized examinations or manually designed questions, lacking HPB coverage and clinical cases. To address these issues, we systematically eatablish an HPB disease evaluation benchmark comprising 3,535 closed-ended multiple-choice questions and 337 open-ended real diagnosis cases, which encompasses all the 33 main categories and 465 subcategories of HPB diseases defined in the International Statistical Classification of Diseases, 10th Revision (ICD-10). The multiple-choice questions are curated from public datasets and synthesized data, and the clinical cases are collected from prestigious medical journals, case-sharing platforms, and collaborating hospitals. By evalauting commercial and open-source general and medical LLMs on our established benchmark, namely ClinBench-HBP, we find that while commercial LLMs perform competently on medical exam questions, they exhibit substantial performance degradation on HPB diagnosis tasks, especially on complex, inpatient clinical cases. Those medical LLMs also show limited generalizability to HPB diseases. Our results reveal the critical limitations of current LLMs in the domain of HPB diseases, underscoring the imperative need for future medical LLMs to handle real, complex clinical diagnostics rather than simple medical exam questions. The benchmark will be released at https://clinbench-hpb.github.io.
- Abstract(参考訳): 肝-膵・胆道疾患(HPB)は、その死亡率と死亡率が高いため、世界的な公衆衛生上の課題である。
大規模言語モデル (LLM) は一般的な医学的質問応答タスクにおいて有望な性能を示したが、現在の評価ベンチマークは主に標準化された試験や手作業による質問から導かれており、HPBのカバレッジや臨床ケースが欠如している。
これらの課題に対処するため,国際統計分類第10版(ICD-10)で定義されている3,535件のクローズド・エンド・マルチチョイス・質問と337件のオープン・エンド・リアル・診断事例からなるHPB病評価ベンチマークを系統的に実施した。
複数項目の質問は、公開データセットと合成データから収集され、臨床ケースは、名高い医学雑誌、ケースシェアリングプラットフォーム、共同病院から収集される。
ClinBench-HBP という,確立したベンチマークで市販およびオープンソース LLM を回避することにより,商業 LLM が医学的検査に有能な性能を発揮する一方で,HPB の診断タスク,特に複雑な臨床症例において,相当なパフォーマンス劣化を示すことが判明した。
これらの医療用LSMはHPB病に対して限定的な一般化性を示す。
以上の結果から,HPB 病領域における現在の LLM の限界が明らかとなり,単純な臨床検査問題ではなく,現実的な複雑な臨床診断を行うための医療 LLM の必要性が示唆された。
ベンチマークはhttps://clinbench-hpb.github.ioで公開される。
関連論文リスト
- CUPCase: Clinically Uncommon Patient Cases and Diagnoses Dataset [0.807662398486908]
汎用GPT-4oは、複数選択タスクとオープンエンドタスクの両方で最高のパフォーマンスを達成する。
汎用GPT-4oは、複数選択タスクとオープンエンドタスクの両方で最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-08T13:21:44Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World [34.35946008449027]
包括的臨床診断剤アライメントスイートである ClinicalLab を紹介する。
ClinicalLabには、エンドツーエンドの多部門間臨床診断評価ベンチマークである ClinicalBenchが含まれている。
我々は17個のLDMを評価し,その性能が各部門で大きく異なることを発見した。
論文 参考訳(メタデータ) (2024-06-19T23:44:25Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - LongHealth: A Question Answering Benchmark with Long Clinical Documents [36.05587855811346]
各種疾患20例を対象とし,LongHealthベンチマークを報告する。
このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択の質問でLSMに挑戦する。
また,OpenAIのプロプライエタリかつコスト効率のよいGPT-3.5 Turboも比較検討した。
論文 参考訳(メタデータ) (2024-01-25T19:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。