論文の概要: LingLanMiDian: Systematic Evaluation of LLMs on TCM Knowledge and Clinical Reasoning
- arxiv url: http://arxiv.org/abs/2602.01779v1
- Date: Mon, 02 Feb 2026 08:02:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.000458
- Title: LingLanMiDian: Systematic Evaluation of LLMs on TCM Knowledge and Clinical Reasoning
- Title(参考訳): LingLanMiDian:TCM知識と臨床推論に基づくLCMの体系的評価
- Authors: Rui Hua, Yu Wei, Zixin Shu, Kai Chang, Dengying Yan, Jianan Xia, Zeyu Liu, Hui Zhu, Shujie Song, Mingzhong Xiao, Xiaodong Li, Dongmei Jia, Zhuye Gao, Yanyan Meng, Naixuan Zhao, Yu Fu, Haibin Yu, Benman Yu, Yuanyuan Chen, Fei Dong, Zhizhou Meng, Pengcheng Yang, Songxue Zhao, Lijuan Pei, Yunhui Hu, Kan Ding, Jiayuan Duan, Wenmao Yin, Yang Gu, Runshun Zhang, Qiang Zhu, Jian Yu, Jiansheng Li, Baoyan Liu, Wenjia Wang, Xuezhong Zhou,
- Abstract要約: LingLanベンチマーク(LingLanベンチマーク)は、知識リコール、マルチホップ推論、情報抽出、実世界の臨床的意思決定などにわたる評価を統合する、大規模で専門家によるマルチタスクスイートである。
LingLanは、一貫したメートル法設計、臨床ラベルのためのシノニムトレラントプロトコル、データセットごとの400項目のハードサブセット、診断と治療の推奨を単一選択判定に再定義する。
- 参考スコア(独自算出の注目度): 27.37958097277936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are advancing rapidly in medical NLP, yet Traditional Chinese Medicine (TCM) with its distinctive ontology, terminology, and reasoning patterns requires domain-faithful evaluation. Existing TCM benchmarks are fragmented in coverage and scale and rely on non-unified or generation-heavy scoring that hinders fair comparison. We present the LingLanMiDian (LingLan) benchmark, a large-scale, expert-curated, multi-task suite that unifies evaluation across knowledge recall, multi-hop reasoning, information extraction, and real-world clinical decision-making. LingLan introduces a consistent metric design, a synonym-tolerant protocol for clinical labels, a per-dataset 400-item Hard subset, and a reframing of diagnosis and treatment recommendation into single-choice decision recognition. We conduct comprehensive, zero-shot evaluations on 14 leading open-source and proprietary LLMs, providing a unified perspective on their strengths and limitations in TCM commonsense knowledge understanding, reasoning, and clinical decision support; critically, the evaluation on Hard subset reveals a substantial gap between current models and human experts in TCM-specialized reasoning. By bridging fundamental knowledge and applied reasoning through standardized evaluation, LingLan establishes a unified, quantitative, and extensible foundation for advancing TCM LLMs and domain-specific medical AI research. All evaluation data and code are available at https://github.com/TCMAI-BJTU/LingLan and http://tcmnlp.com.
- Abstract(参考訳): 大きな言語モデル (LLMs) は医学的NLPにおいて急速に進歩しているが、その独特のオントロジー、用語、推論パターンを持つ伝統的な中国医学 (TCM) はドメインに忠実な評価を必要とする。
既存のTCMベンチマークは、カバレッジとスケールで断片化されており、不統一または世代重大評価に依存しているため、公正な比較を妨げている。
LingLanMiDian(LingLan)ベンチマークは、知識リコール、マルチホップ推論、情報抽出、実世界の臨床的意思決定を総合的に評価する大規模で専門家によるマルチタスクスイートである。
LingLanは、一貫したメートル法設計、臨床ラベルのためのシノニムトレラントプロトコル、データセットごとの400項目のハードサブセット、診断と治療の推奨を単一選択判定に再定義する。
我々は、14の主要なオープンソースおよびプロプライエタリなLCMに対して包括的なゼロショット評価を行い、TCMコモンセンス知識理解、推論、臨床決定支援におけるその強みと限界について統一的な視点を提供する。
基礎知識と応用推論を標準化された評価を通じてブリッジすることで、LingLanは、TCM LLMとドメイン固有の医療AI研究を進めるための統一的で定量的で拡張可能な基盤を確立する。
すべての評価データとコードはhttps://github.com/TCMAI-BJTU/LingLanとhttp://tcmnlp.comで入手できる。
関連論文リスト
- MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models [15.91764739198419]
5,200件の患者と6万件以上のきめ細粒度評価ルーブリックからなる新規なベンチマークであるMedDialogRubricsについて紹介する。
本フレームワークでは,実世界の電子的健康記録にアクセスすることなく,現実的な患者記録と主訴を合成するマルチエージェントシステムを採用している。
論文 参考訳(メタデータ) (2026-01-06T13:56:33Z) - A benchmark dataset for evaluating Syndrome Differentiation and Treatment in large language models [2.5287456399381494]
漢方医学領域における大規模言語モデル(LLM)は,臨床応用能力の評価を急務に行う必要がある。
既存のベンチマークは知識に基づく質問応答や、シンドロームの判別の精度に限られている。
本稿では,TCMの専門家が先導した包括的,臨床ケースベースベンチマークと,処方のシンドロームの一致を定量化するための特別報酬モデルを提案する。
論文 参考訳(メタデータ) (2025-12-02T14:26:44Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - MTCMB: A Multi-Task Benchmark Framework for Evaluating LLMs on Knowledge, Reasoning, and Safety in Traditional Chinese Medicine [36.08458917280579]
MTCMBは、知識QA、言語理解、診断推論、処方薬の生成、安全性評価の5つのカテゴリにまたがる12のサブデータセットから構成される。
予備的な結果は、現在のLSMは基礎知識でうまく機能するが、臨床推論、処方薬計画、安全コンプライアンスでは不足していることを示している。
論文 参考訳(メタデータ) (2025-06-02T02:01:40Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine [10.74071774496229]
大規模言語モデル (LLMs) は, 様々なNLPタスクや現代医学に優れるが, 伝統的な漢方医学(TCM)における評価は過小評価されている。
そこで本研究では,TCM における LLM の評価を行うベンチマークである TCM3CEval について紹介する。
全てのモデルはメリディアン・アンド・アクポイント理論や様々なTCMスクールのような特殊性に制限があり、現在の能力と臨床ニーズのギャップを明らかにする。
論文 参考訳(メタデータ) (2025-03-10T08:29:15Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine [19.680694337954133]
大規模言語モデル(LLM)の専門的評価ベンチマークは、伝統的な中国医学(TCM)領域ではまだカバーされていない。
そこで本研究では,TCMにおけるLLM性能を評価するための総合的なベンチマークであるTCM-Benchを紹介する。
TCM-EDデータセットは、TCM Licensing Exam (TCMLE)から得られた5,473の質問から成り、権威分析を伴う1,300の質問を含む。
質問応答の精度を超えてLLMを評価するために,TCM関連質問に対してLLMが生成する回答の質を評価するための指標であるTCMScoreを提案する。
論文 参考訳(メタデータ) (2024-06-03T09:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。