論文の概要: A benchmark dataset for evaluating Syndrome Differentiation and Treatment in large language models
- arxiv url: http://arxiv.org/abs/2512.02816v1
- Date: Tue, 02 Dec 2025 14:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.923019
- Title: A benchmark dataset for evaluating Syndrome Differentiation and Treatment in large language models
- Title(参考訳): 大規模言語モデルにおけるシンドロームの識別と治療評価のためのベンチマークデータセット
- Authors: Kunning Li, Jianbin Guo, Zhaoyang Shang, Yiqing Liu, Hongmin Du, Lingling Liu, Yuping Zhao, Lifeng Dong,
- Abstract要約: 漢方医学領域における大規模言語モデル(LLM)は,臨床応用能力の評価を急務に行う必要がある。
既存のベンチマークは知識に基づく質問応答や、シンドロームの判別の精度に限られている。
本稿では,TCMの専門家が先導した包括的,臨床ケースベースベンチマークと,処方のシンドロームの一致を定量化するための特別報酬モデルを提案する。
- 参考スコア(独自算出の注目度): 2.5287456399381494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of Large Language Models (LLMs) within the Traditional Chinese Medicine (TCM) domain presents an urgent need to assess their clinical application capabilities. However, such evaluations are challenged by the individualized, holistic, and diverse nature of TCM's "Syndrome Differentiation and Treatment" (SDT). Existing benchmarks are confined to knowledge-based question-answering or the accuracy of syndrome differentiation, often neglecting assessment of treatment decision-making. Here, we propose a comprehensive, clinical case-based benchmark spearheaded by TCM experts, and a specialized reward model employed to quantify prescription-syndrome congruence. Data annotation follows a rigorous pipeline. This benchmark, designated TCM-BEST4SDT, encompasses four tasks, including TCM Basic Knowledge, Medical Ethics, LLM Content Safety, and SDT. The evaluation framework integrates three mechanisms, namely selected-response evaluation, judge model evaluation, and reward model evaluation. The effectiveness of TCM-BEST4SDT was corroborated through experiments on 15 mainstream LLMs, spanning both general and TCM domains. To foster the development of intelligent TCM research, TCM-BEST4SDT is now publicly available.
- Abstract(参考訳): 伝統中国医学(TCM)領域におけるLarge Language Models(LLM)の出現は,臨床応用能力の評価に緊急の必要性を示唆している。
しかし, この評価は, TCMのSyndrome Differentiation and Treatment (SDT) の個人化, 包括的, 多様性に挑戦されている。
既存のベンチマークは知識に基づく質問答えやシンドロームの区別の精度に限られており、しばしば治療意思決定の評価を無視している。
本稿では,TCMの専門家が先導した包括的,臨床ケースベースベンチマークと,処方のシンドロームの一致を定量化するための特別報酬モデルを提案する。
データアノテーションは厳格なパイプラインに続く。
TCM-BEST4SDTと名付けられたこのベンチマークは、TCM Basic Knowledge, Medical Ethics, LLM Content Safety, SDTの4つのタスクを含む。
評価フレームワークは,選択応答評価,判断モデル評価,報酬モデル評価という3つのメカニズムを統合する。
TCM-BEST4SDTの有効性は、一般ドメインとTCMドメインの両方にまたがる15のメインストリームLCMでの実験によって裏付けられた。
インテリジェントTCM研究の発展を促進するため、TCM-BEST4SDTが公開されている。
関連論文リスト
- TCM-5CEval: Extended Deep Evaluation Benchmark for LLM's Comprehensive Clinical Research Competence in Traditional Chinese Medicine [11.944521938566231]
大規模言語モデル(LLM)は、一般的なドメインにおいて例外的な能力を示してきたが、伝統的な中国医学(TCM)のような高度に専門的で文化的に豊かな分野に適用するには厳密な評価が必要である。
TCM-5CEvalは、(1)コア知識(TCM-seek)、(2)古典リテラシー(TCM-LitQA)、(3)臨床意思決定(TCM-MRCD)、(4)中国マテリアメディカ(TCM-CMM)、(5)臨床非薬物療法(TCM-ClinNPT)の5つの重要な側面にわたるLCMを評価するように設計されている。
論文 参考訳(メタデータ) (2025-11-17T09:15:41Z) - TCM-Eval: An Expert-Level Dynamic and Extensible Benchmark for Traditional Chinese Medicine [51.01817637808011]
我々は,中国伝統医学(TCM)の最初のダイナミックで高品質なベンチマークであるTCM-Evalを紹介する。
大規模トレーニングコーパスを構築し,SI-CoTE(Self-Iterative Chain-of-Thought Enhancement)を提案する。
このリッチなトレーニングデータを用いて,TCM用に特別に設計された最先端LLMであるZhiMingTang(ZMT)を開発した。
論文 参考訳(メタデータ) (2025-11-10T14:35:25Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine [53.91744478760689]
我々は、中国伝統医学(TCM)に適した最初の多モーダル言語モデルであるシージエンGPTを提示する。
シッシェンGPTは、深いTCM知識とマルチモーダル推論を達成するために、事前訓練され、訓練されている。
実験によると、ShizhenGPTはLLMよりも優れており、より大きなプロプライエタリモデルと競合する。
論文 参考訳(メタデータ) (2025-08-20T13:30:20Z) - MTCMB: A Multi-Task Benchmark Framework for Evaluating LLMs on Knowledge, Reasoning, and Safety in Traditional Chinese Medicine [36.08458917280579]
MTCMBは、知識QA、言語理解、診断推論、処方薬の生成、安全性評価の5つのカテゴリにまたがる12のサブデータセットから構成される。
予備的な結果は、現在のLSMは基礎知識でうまく機能するが、臨床推論、処方薬計画、安全コンプライアンスでは不足していることを示している。
論文 参考訳(メタデータ) (2025-06-02T02:01:40Z) - TCM-Ladder: A Benchmark for Multimodal Question Answering on Traditional Chinese Medicine [22.179602943420907]
我々は,大規模なTCM言語モデルを評価するために特別に設計された,最初の総合マルチモーダルQAデータセットであるTCM-Ladderを紹介する。
このデータセットは、基礎理論、診断、草本式、内科、外科、薬物療法、小児科を含む、TCMの複数の中核分野をカバーする。
データセットは自動と手動のフィルタリングプロセスを組み合わせて構築され、52,000以上の質問で構成されている。
論文 参考訳(メタデータ) (2025-05-29T23:13:57Z) - TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine [10.74071774496229]
大規模言語モデル (LLMs) は, 様々なNLPタスクや現代医学に優れるが, 伝統的な漢方医学(TCM)における評価は過小評価されている。
そこで本研究では,TCM における LLM の評価を行うベンチマークである TCM3CEval について紹介する。
全てのモデルはメリディアン・アンド・アクポイント理論や様々なTCMスクールのような特殊性に制限があり、現在の能力と臨床ニーズのギャップを明らかにする。
論文 参考訳(メタデータ) (2025-03-10T08:29:15Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。