論文の概要: ClinBench-HPB: A Clinical Benchmark for Evaluating LLMs in Hepato-Pancreato-Biliary Diseases
- arxiv url: http://arxiv.org/abs/2506.00095v2
- Date: Tue, 03 Jun 2025 03:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.285354
- Title: ClinBench-HPB: A Clinical Benchmark for Evaluating LLMs in Hepato-Pancreato-Biliary Diseases
- Title(参考訳): ClinBench-HPB : 肝・膵・胆道疾患におけるLCMの検討
- Authors: Yuchong Li, Xiaojun Zeng, Chihua Fang, Jian Yang, Fucang Jia, Lei Zhang,
- Abstract要約: 肝-膵・胆道疾患(HPB)は、その死亡率と死亡率が高いため、世界的な公衆衛生上の課題である。
大規模言語モデル(LLM)は、一般的な質問応答タスクにおいて有望な性能を示した。
我々は,3,535件のクローズドエンド・マルチチョイス質問と337件のオープンエンド・リアル診断例からなるHPB病評価ベンチマークを系統的に評価した。
- 参考スコア(独自算出の注目度): 22.49042417871628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hepato-pancreato-biliary (HPB) disorders represent a global public health challenge due to their high morbidity and mortality. Although large language models (LLMs) have shown promising performance in general medical question-answering tasks, the current evaluation benchmarks are mostly derived from standardized examinations or manually designed questions, lacking HPB coverage and clinical cases. To address these issues, we systematically eatablish an HPB disease evaluation benchmark comprising 3,535 closed-ended multiple-choice questions and 337 open-ended real diagnosis cases, which encompasses all the 33 main categories and 465 subcategories of HPB diseases defined in the International Statistical Classification of Diseases, 10th Revision (ICD-10). The multiple-choice questions are curated from public datasets and synthesized data, and the clinical cases are collected from prestigious medical journals, case-sharing platforms, and collaborating hospitals. By evalauting commercial and open-source general and medical LLMs on our established benchmark, namely ClinBench-HBP, we find that while commercial LLMs perform competently on medical exam questions, they exhibit substantial performance degradation on HPB diagnosis tasks, especially on complex, inpatient clinical cases. Those medical LLMs also show limited generalizability to HPB diseases. Our results reveal the critical limitations of current LLMs in the domain of HPB diseases, underscoring the imperative need for future medical LLMs to handle real, complex clinical diagnostics rather than simple medical exam questions. The benchmark will be released at the homepage.
- Abstract(参考訳): 肝-膵・胆道疾患(HPB)は、その死亡率と死亡率が高いため、世界的な公衆衛生上の課題である。
大規模言語モデル (LLM) は一般的な医学的質問応答タスクにおいて有望な性能を示したが、現在の評価ベンチマークは主に標準化された試験や手作業による質問から導かれており、HPBのカバレッジや臨床ケースが欠如している。
これらの課題に対処するため,国際統計分類第10版(ICD-10)で定義されている3,535件のクローズド・エンド・マルチチョイス・質問と337件のオープン・エンド・リアル・診断事例からなるHPB病評価ベンチマークを系統的に実施した。
複数項目の質問は、公開データセットと合成データから収集され、臨床ケースは、名高い医学雑誌、ケースシェアリングプラットフォーム、共同病院から収集される。
ClinBench-HBP という,確立したベンチマークで市販およびオープンソース LLM を回避することにより,商業 LLM が医学的検査に有能な性能を発揮する一方で,HPB の診断タスク,特に複雑な臨床症例において,相当なパフォーマンス劣化を示すことが判明した。
これらの医療用LSMはHPB病に対して限定的な一般化性を示す。
以上の結果から,HPB 病領域における現在の LLM の限界が明らかとなり,単純な臨床検査問題ではなく,現実的な複雑な臨床診断を行うための医療 LLM の必要性が示唆された。
ベンチマークはホームページで公開される予定だ。
関連論文リスト
- LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [38.02853540388593]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - CUPCase: Clinically Uncommon Patient Cases and Diagnoses Dataset [0.807662398486908]
汎用GPT-4oは、複数選択タスクとオープンエンドタスクの両方で最高のパフォーマンスを達成する。
汎用GPT-4oは、複数選択タスクとオープンエンドタスクの両方で最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-08T13:21:44Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World [34.35946008449027]
包括的臨床診断剤アライメントスイートである ClinicalLab を紹介する。
ClinicalLabには、エンドツーエンドの多部門間臨床診断評価ベンチマークである ClinicalBenchが含まれている。
我々は17個のLDMを評価し,その性能が各部門で大きく異なることを発見した。
論文 参考訳(メタデータ) (2024-06-19T23:44:25Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - LongHealth: A Question Answering Benchmark with Long Clinical Documents [36.05587855811346]
各種疾患20例を対象とし,LongHealthベンチマークを報告する。
このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択の質問でLSMに挑戦する。
また,OpenAIのプロプライエタリかつコスト効率のよいGPT-3.5 Turboも比較検討した。
論文 参考訳(メタデータ) (2024-01-25T19:57:00Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。