論文の概要: TCM-5CEval: Extended Deep Evaluation Benchmark for LLM's Comprehensive Clinical Research Competence in Traditional Chinese Medicine
- arxiv url: http://arxiv.org/abs/2511.13169v1
- Date: Mon, 17 Nov 2025 09:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.095537
- Title: TCM-5CEval: Extended Deep Evaluation Benchmark for LLM's Comprehensive Clinical Research Competence in Traditional Chinese Medicine
- Title(参考訳): TCM-5CEval:中国伝統医学におけるLLMの総合的臨床研究能力に関する詳細な評価ベンチマーク
- Authors: Tianai Huang, Jiayuan Chen, Lu Lu, Pengcheng Chen, Tianbin Li, Bing Han, Wenchao Tang, Jie Xu, Ming Li,
- Abstract要約: 大規模言語モデル(LLM)は、一般的なドメインにおいて例外的な能力を示してきたが、伝統的な中国医学(TCM)のような高度に専門的で文化的に豊かな分野に適用するには厳密な評価が必要である。
TCM-5CEvalは、(1)コア知識(TCM-seek)、(2)古典リテラシー(TCM-LitQA)、(3)臨床意思決定(TCM-MRCD)、(4)中国マテリアメディカ(TCM-CMM)、(5)臨床非薬物療法(TCM-ClinNPT)の5つの重要な側面にわたるLCMを評価するように設計されている。
- 参考スコア(独自算出の注目度): 11.944521938566231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated exceptional capabilities in general domains, yet their application in highly specialized and culturally-rich fields like Traditional Chinese Medicine (TCM) requires rigorous and nuanced evaluation. Building upon prior foundational work such as TCM-3CEval, which highlighted systemic knowledge gaps and the importance of cultural-contextual alignment, we introduce TCM-5CEval, a more granular and comprehensive benchmark. TCM-5CEval is designed to assess LLMs across five critical dimensions: (1) Core Knowledge (TCM-Exam), (2) Classical Literacy (TCM-LitQA), (3) Clinical Decision-making (TCM-MRCD), (4) Chinese Materia Medica (TCM-CMM), and (5) Clinical Non-pharmacological Therapy (TCM-ClinNPT). We conducted a thorough evaluation of fifteen prominent LLMs, revealing significant performance disparities and identifying top-performing models like deepseek\_r1 and gemini\_2\_5\_pro. Our findings show that while models exhibit proficiency in recalling foundational knowledge, they struggle with the interpretative complexities of classical texts. Critically, permutation-based consistency testing reveals widespread fragilities in model inference. All evaluated models, including the highest-scoring ones, displayed a substantial performance degradation when faced with varied question option ordering, indicating a pervasive sensitivity to positional bias and a lack of robust understanding. TCM-5CEval not only provides a more detailed diagnostic tool for LLM capabilities in TCM but aldso exposes fundamental weaknesses in their reasoning stability. To promote further research and standardized comparison, TCM-5CEval has been uploaded to the Medbench platform, joining its predecessor in the "In-depth Challenge for Comprehensive TCM Abilities" special track.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般的なドメインにおいて例外的な能力を示しているが、伝統的な中国医学(TCM)のような高度に専門的で文化的に豊かな分野に適用するには、厳密でニュアンスな評価が必要である。
体系的な知識ギャップと文化的・文脈的アライメントの重要性を強調したTCM-3CEvalのような先行的な基礎的な作業に基づいて、よりきめ細やかで包括的なベンチマークであるTCM-5CEvalを紹介する。
TCM-5CEvalは,(1)コア知識(TCM-Exam),(2)古典リテラシー(TCM-LitQA),(3)臨床意思決定(TCM-MRCD),(4)中国マテリアメディカ(TCM-CMM),(5)臨床非薬理療法(TCM-ClinNPT)の5つの重要な側面にわたるLCMを評価するように設計されている。
我々は15種類の顕著なLCMを徹底的に評価し、性能の相違を明らかにし、Deepseek\_r1 や gemini\_2\_5\_pro などの最高性能モデルを特定した。
本研究は, 基礎知識を再現する能力を示すモデルを示す一方で, 古典文の解釈的複雑度に苦慮していることを示す。
決定的に、置換に基づく整合性テストは、モデル推論における広範なフラギリティを明らかにする。
評価されたすべてのモデル(最高スコアを含む)は、様々な質問オプションの順序付けに直面した場合、大幅な性能劣化を示し、位置バイアスに対する広範囲な感度と堅牢な理解の欠如を示している。
TCM-5CEvalは、TCMのLLM機能のより詳細な診断ツールを提供するだけでなく、その推論安定性の根本的な弱点を明らかにしている。
さらなる研究と標準化された比較を促進するため、TCM-5CEvalはMedbenchプラットフォームにアップロードされ、"In-deepth Challenge for Comprehensive TCM Abilities"の特別トラックに前任者に加わる。
関連論文リスト
- TCM-Eval: An Expert-Level Dynamic and Extensible Benchmark for Traditional Chinese Medicine [51.01817637808011]
我々は,中国伝統医学(TCM)の最初のダイナミックで高品質なベンチマークであるTCM-Evalを紹介する。
大規模トレーニングコーパスを構築し,SI-CoTE(Self-Iterative Chain-of-Thought Enhancement)を提案する。
このリッチなトレーニングデータを用いて,TCM用に特別に設計された最先端LLMであるZhiMingTang(ZMT)を開発した。
論文 参考訳(メタデータ) (2025-11-10T14:35:25Z) - ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine [53.91744478760689]
我々は、中国伝統医学(TCM)に適した最初の多モーダル言語モデルであるシージエンGPTを提示する。
シッシェンGPTは、深いTCM知識とマルチモーダル推論を達成するために、事前訓練され、訓練されている。
実験によると、ShizhenGPTはLLMよりも優れており、より大きなプロプライエタリモデルと競合する。
論文 参考訳(メタデータ) (2025-08-20T13:30:20Z) - MTCMB: A Multi-Task Benchmark Framework for Evaluating LLMs on Knowledge, Reasoning, and Safety in Traditional Chinese Medicine [36.08458917280579]
MTCMBは、知識QA、言語理解、診断推論、処方薬の生成、安全性評価の5つのカテゴリにまたがる12のサブデータセットから構成される。
予備的な結果は、現在のLSMは基礎知識でうまく機能するが、臨床推論、処方薬計画、安全コンプライアンスでは不足していることを示している。
論文 参考訳(メタデータ) (2025-06-02T02:01:40Z) - Tianyi: A Traditional Chinese Medicine all-rounder language model and its Real-World Clinical Practice [15.020917068333237]
Tianyiは、相互接続された、系統的なTCM知識を、進歩的な学習方法で同化するように設計されている。
広範囲な評価は、TCM臨床および研究におけるAIアシスタントとしてのTianyiの有意義な可能性を示している。
論文 参考訳(メタデータ) (2025-05-19T14:17:37Z) - TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine [10.74071774496229]
大規模言語モデル (LLMs) は, 様々なNLPタスクや現代医学に優れるが, 伝統的な漢方医学(TCM)における評価は過小評価されている。
そこで本研究では,TCM における LLM の評価を行うベンチマークである TCM3CEval について紹介する。
全てのモデルはメリディアン・アンド・アクポイント理論や様々なTCMスクールのような特殊性に制限があり、現在の能力と臨床ニーズのギャップを明らかにする。
論文 参考訳(メタデータ) (2025-03-10T08:29:15Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine [19.680694337954133]
大規模言語モデル(LLM)の専門的評価ベンチマークは、伝統的な中国医学(TCM)領域ではまだカバーされていない。
そこで本研究では,TCMにおけるLLM性能を評価するための総合的なベンチマークであるTCM-Benchを紹介する。
TCM-EDデータセットは、TCM Licensing Exam (TCMLE)から得られた5,473の質問から成り、権威分析を伴う1,300の質問を含む。
質問応答の精度を超えてLLMを評価するために,TCM関連質問に対してLLMが生成する回答の質を評価するための指標であるTCMScoreを提案する。
論文 参考訳(メタデータ) (2024-06-03T09:11:13Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。