論文の概要: MTCMB: A Multi-Task Benchmark Framework for Evaluating LLMs on Knowledge, Reasoning, and Safety in Traditional Chinese Medicine
- arxiv url: http://arxiv.org/abs/2506.01252v1
- Date: Mon, 02 Jun 2025 02:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.009019
- Title: MTCMB: A Multi-Task Benchmark Framework for Evaluating LLMs on Knowledge, Reasoning, and Safety in Traditional Chinese Medicine
- Title(参考訳): MTCMB:中国伝統医学におけるLLMの知識・推論・安全性評価のためのマルチタスクベンチマークフレームワーク
- Authors: Shufeng Kong, Xingru Yang, Yuanyuan Wei, Zijie Wang, Hao Tang, Jiuqi Qin, Shuting Lan, Yingheng Wang, Junwen Bai, Zhuangbin Chen, Zibin Zheng, Caihua Liu, Hao Liang,
- Abstract要約: MTCMBは、知識QA、言語理解、診断推論、処方薬の生成、安全性評価の5つのカテゴリにまたがる12のサブデータセットから構成される。
予備的な結果は、現在のLSMは基礎知識でうまく機能するが、臨床推論、処方薬計画、安全コンプライアンスでは不足していることを示している。
- 参考スコア(独自算出の注目度): 36.08458917280579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional Chinese Medicine (TCM) is a holistic medical system with millennia of accumulated clinical experience, playing a vital role in global healthcare-particularly across East Asia. However, the implicit reasoning, diverse textual forms, and lack of standardization in TCM pose major challenges for computational modeling and evaluation. Large Language Models (LLMs) have demonstrated remarkable potential in processing natural language across diverse domains, including general medicine. Yet, their systematic evaluation in the TCM domain remains underdeveloped. Existing benchmarks either focus narrowly on factual question answering or lack domain-specific tasks and clinical realism. To fill this gap, we introduce MTCMB-a Multi-Task Benchmark for Evaluating LLMs on TCM Knowledge, Reasoning, and Safety. Developed in collaboration with certified TCM experts, MTCMB comprises 12 sub-datasets spanning five major categories: knowledge QA, language understanding, diagnostic reasoning, prescription generation, and safety evaluation. The benchmark integrates real-world case records, national licensing exams, and classical texts, providing an authentic and comprehensive testbed for TCM-capable models. Preliminary results indicate that current LLMs perform well on foundational knowledge but fall short in clinical reasoning, prescription planning, and safety compliance. These findings highlight the urgent need for domain-aligned benchmarks like MTCMB to guide the development of more competent and trustworthy medical AI systems. All datasets, code, and evaluation tools are publicly available at: https://github.com/Wayyuanyuan/MTCMB.
- Abstract(参考訳): 伝統的な中国医学(TCM)は、何千年もの臨床経験を蓄積した総合的な医療システムであり、特に東アジアの世界的な医療において重要な役割を担っている。
しかし、暗黙の推論、多種多様なテキスト形式、およびTCMにおける標準化の欠如は、計算モデリングと評価に大きな課題をもたらす。
大規模言語モデル(LLM)は、一般医学を含む様々な領域にわたる自然言語処理において、顕著な可能性を示している。
しかし,TCM領域の体系的評価はいまだに未発達である。
既存のベンチマークでは、実際の質問応答に限定するか、ドメイン固有のタスクや臨床リアリズムが欠如している。
このギャップを埋めるために、TCM知識、推論、安全性に基づくLCMの評価のためのマルチタスクベンチマークであるMCCMBを導入する。
MTCMBは認定TCMの専門家と共同で開発されたもので、知識QA、言語理解、診断推論、処方薬の生成、安全性評価の5つのカテゴリにまたがる12のサブデータセットで構成されている。
このベンチマークは、現実世界のケースレコード、国家ライセンス試験、古典テキストを統合し、TCM対応モデルの真正かつ包括的なテストベッドを提供する。
予備的な結果は、現在のLSMは基礎知識でうまく機能するが、臨床推論、処方薬計画、安全コンプライアンスでは不足していることを示している。
これらの発見は、より有能で信頼性の高い医療AIシステムの開発を促進するために、MCCMBのようなドメイン整合ベンチマークが緊急に必要であることを示している。
すべてのデータセット、コード、評価ツールは、https://github.com/Wayyuanyuan/MTCMBで公開されている。
関連論文リスト
- TCM-Ladder: A Benchmark for Multimodal Question Answering on Traditional Chinese Medicine [21.46828174190836]
我々は,大規模なTCM言語モデルを評価するために特別に設計された,最初のマルチモーダルQAデータセットであるTCM-Ladderを紹介する。
このデータセットは、基礎理論、診断、草本式、内科、外科、薬物療法、小児科を含む、TCMの複数の中核領域にまたがる。
データセットは、自動と手動のフィルタリングプロセスを組み合わせて構築され、合計で52,000以上の質問で構成されている。
論文 参考訳(メタデータ) (2025-05-29T23:13:57Z) - Tianyi: A Traditional Chinese Medicine all-rounder language model and its Real-World Clinical Practice [15.020917068333237]
Tianyiは、相互接続された、系統的なTCM知識を、進歩的な学習方法で同化するように設計されている。
広範囲な評価は、TCM臨床および研究におけるAIアシスタントとしてのTianyiの有意義な可能性を示している。
論文 参考訳(メタデータ) (2025-05-19T14:17:37Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine [10.74071774496229]
大規模言語モデル (LLMs) は, 様々なNLPタスクや現代医学に優れるが, 伝統的な漢方医学(TCM)における評価は過小評価されている。
そこで本研究では,TCM における LLM の評価を行うベンチマークである TCM3CEval について紹介する。
全てのモデルはメリディアン・アンド・アクポイント理論や様々なTCMスクールのような特殊性に制限があり、現在の能力と臨床ニーズのギャップを明らかにする。
論文 参考訳(メタデータ) (2025-03-10T08:29:15Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine [19.680694337954133]
大規模言語モデル(LLM)の専門的評価ベンチマークは、伝統的な中国医学(TCM)領域ではまだカバーされていない。
そこで本研究では,TCMにおけるLLM性能を評価するための総合的なベンチマークであるTCM-Benchを紹介する。
TCM-EDデータセットは、TCM Licensing Exam (TCMLE)から得られた5,473の質問から成り、権威分析を伴う1,300の質問を含む。
質問応答の精度を超えてLLMを評価するために,TCM関連質問に対してLLMが生成する回答の質を評価するための指標であるTCMScoreを提案する。
論文 参考訳(メタデータ) (2024-06-03T09:11:13Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain [24.411904114158673]
我々は、中国生物医学言語理解評価(CBlue)ベンチマークを大規模なプロンプトチューニングベンチマークであるPromptCBlueに再構築した。
我々のベンチマークは、幅広いバイオメディカルタスクにおいて、中国のLCMのマルチタスク能力を評価するのに適したテストベッドであり、オンラインプラットフォームである。
論文 参考訳(メタデータ) (2023-10-22T02:20:38Z) - CMB: A Comprehensive Medical Benchmark in Chinese [67.69800156990952]
そこで我々は,中国語の包括的医療ベンチマークであるCMB(Comprehensive Medical Benchmark)を提案する。
伝統的な中国医学はこの評価に欠かせないものであるが、全体としては成り立たない。
われわれは,ChatGPT,GPT-4,中国専用LSM,医療分野に特化したLSMなど,いくつかの大規模LSMを評価した。
論文 参考訳(メタデータ) (2023-08-17T07:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。