論文の概要: CMQCIC-Bench: A Chinese Benchmark for Evaluating Large Language Models in Medical Quality Control Indicator Calculation
- arxiv url: http://arxiv.org/abs/2502.11703v1
- Date: Mon, 17 Feb 2025 11:40:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:24.042685
- Title: CMQCIC-Bench: A Chinese Benchmark for Evaluating Large Language Models in Medical Quality Control Indicator Calculation
- Title(参考訳): CMQCIC-Bench:医学的品質管理指標計算における大規模言語モデル評価のための中国語ベンチマーク
- Authors: Guangya Yu, Yanhao Li, Zongying Jiang, Yuxiong Jin, Li Dai, Yupian Lin, Ruihui Hou, Weiyan Zhang, Yongqi Fan, Qi Ye, Jingping Liu, Tong Ruan,
- Abstract要約: 医用品質管理指標計算(MQCIC)のためのオープンソースの中国の電子カルテ(EMR)ベースのデータセット(CMQCIC-Bench)を提案する。
本稿では,臨床事実検証と推論規則推論の動作を阻害する,ルール表現を強化する半自動法と臨床ファクトベース推論規則(CF-IR)法を提案する。
その結果,CF-IRはMQCICタスクにおいてChain-of-Thoughtメソッドよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 10.647090420719666
- License:
- Abstract: Medical quality control indicators are essential to assess the qualifications of healthcare institutions for medical services. With the impressive performance of large language models (LLMs) like GPT-4 in the medical field, leveraging these technologies for the Medical Quality Control Indicator Calculation (MQCIC) presents a promising approach. In this work, (1) we introduce a real-world task MQCIC and propose an open-source Chinese electronic medical records (EMRs)-based dataset (CMQCIC-Bench) comprising 785 instances and 76 indicators. (2) We propose a semi-automatic method to enhance the rule representation. Then we propose the Clinical Facts-based Inferential Rule (CF-IR) method that disentangles the clinical fact verification and inferential rule reasoning actions. (3) We conduct comprehensive experiments on 20 representative LLMs, covering general and medical models. Our findings reveal that CF-IR outperforms Chain-of-Thought methods in MQCIC tasks. (4) We conduct an error analysis and investigate the capabilities of clinical fact verification and inferential rule reasoning, providing insights to improve performance in the MQCIC further. The dataset and code is available in this repo https://anonymous.4open.science/r/C-MQCIC-1151.
- Abstract(参考訳): 医療サービスにおける医療機関の資格を評価するためには,医療品質管理指標が不可欠である。
医学分野におけるGPT-4のような大規模言語モデル(LLM)の印象的な性能により、医療品質管理指標計算(MQCIC)にこれらの技術を活用することは、有望なアプローチを示す。
本研究では, 実世界のタスクMQCICを導入し, 785のインスタンスと76のインジケータからなるオープンソースの中国の電子カルテ(EMR)ベースのデータセット(CMQCIC-Bench)を提案する。
2)ルール表現を強化する半自動手法を提案する。
そこで本研究では,臨床事実検証と推論規則推論を両立させるCF-IR法を提案する。
(3) 一般および医療モデルを対象とする20の代表的なLCMについて総合的な実験を行った。
その結果,CF-IRはMQCICタスクにおいてChain-of-Thoughtメソッドよりも優れていることがわかった。
(4) エラー解析を行い,臨床事実検証と推論規則推論の能力を検証し,MQCICの性能向上に向けた洞察を提供する。
データセットとコードは、このリポジトリ https://anonymous.4open.science/r/C-MQCIC-1151で公開されている。
関連論文リスト
- Improving Clinical Question Answering with Multi-Task Learning: A Joint Approach for Answer Extraction and Medical Categorization [2.380499804323775]
回答抽出と医療分類の両面でCQAモデルを共同で訓練するマルチタスク学習フレームワークを提案する。
回答の範囲の予測に加えて、我々のモデルは、診断、治療、症状、処置、実験報告の5つの標準化された医療カテゴリに分類する。
その結果、MTLは標準微調整に比べてF1スコアを2.2%改善し、解答分類の精度は90.7%向上した。
論文 参考訳(メタデータ) (2025-02-18T18:20:37Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - MedQA-CS: Benchmarking Large Language Models Clinical Skills Using an AI-SCE Framework [9.747685145146836]
医学教育の客観的構造化臨床検査(OSCE)に触発されたAI-SCEフレームワークであるMedQA-CSを紹介する。
コントリビューションには、公開データとエキスパートアノテーションを備えた総合的な評価フレームワークであるMedQA-CSの開発が含まれている。
実験の結果,MedQA-CSは,従来のマルチ選択QAベンチマークよりも,臨床スキルを評価する上で困難なベンチマークであることがわかった。
論文 参考訳(メタデータ) (2024-10-02T13:47:17Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - K-QA: A Real-World Medical Q&A Benchmark [12.636564634626422]
K-QA(K-QA)は、K Health上での実際の会話から発せられる1,212の患者質問を含むデータセットである。
我々は,K-QAのサブセットを自己完結文に分解するために,内科医のパネルを用いて回答し,手動で分解する。
我々は、いくつかの最先端モデルと、コンテキスト内学習と医学指向の拡張検索スキームの効果を評価した。
論文 参考訳(メタデータ) (2024-01-25T20:11:04Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Large Language Models for Biomedical Knowledge Graph Construction:
Information extraction from EMR notes [0.0]
大規模言語モデル(LLM)に基づくエンドツーエンド機械学習ソリューションを提案する。
KG構築プロセスで使用される物質は、疾患、因子、治療、および疾患を経験中に患者と共存する症状である。
提案手法の応用は加齢に伴う黄斑変性に対して実証される。
論文 参考訳(メタデータ) (2023-01-29T15:52:33Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。