論文の概要: TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine
- arxiv url: http://arxiv.org/abs/2503.07041v1
- Date: Mon, 10 Mar 2025 08:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:54.942130
- Title: TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine
- Title(参考訳): TCM-3CEval: 漢方医学における大規模言語モデルからの応答評価のための3軸ベンチマーク
- Authors: Tianai Huang, Lu Lu, Jiayuan Chen, Lihao Liu, Junjun He, Yuping Zhao, Wenchao Tang, Jie Xu,
- Abstract要約: 大規模言語モデル (LLMs) は, 様々なNLPタスクや現代医学に優れるが, 伝統的な漢方医学(TCM)における評価は過小評価されている。
そこで本研究では,TCM における LLM の評価を行うベンチマークである TCM3CEval について紹介する。
全てのモデルはメリディアン・アンド・アクポイント理論や様々なTCMスクールのような特殊性に制限があり、現在の能力と臨床ニーズのギャップを明らかにする。
- 参考スコア(独自算出の注目度): 10.74071774496229
- License:
- Abstract: Large language models (LLMs) excel in various NLP tasks and modern medicine, but their evaluation in traditional Chinese medicine (TCM) is underexplored. To address this, we introduce TCM3CEval, a benchmark assessing LLMs in TCM across three dimensions: core knowledge mastery, classical text understanding, and clinical decision-making. We evaluate diverse models, including international (e.g., GPT-4o), Chinese (e.g., InternLM), and medical-specific (e.g., PLUSE). Results show a performance hierarchy: all models have limitations in specialized subdomains like Meridian & Acupoint theory and Various TCM Schools, revealing gaps between current capabilities and clinical needs. Models with Chinese linguistic and cultural priors perform better in classical text interpretation and clinical reasoning. TCM-3CEval sets a standard for AI evaluation in TCM, offering insights for optimizing LLMs in culturally grounded medical domains. The benchmark is available on Medbench's TCM track, aiming to assess LLMs' TCM capabilities in basic knowledge, classic texts, and clinical decision-making through multidimensional questions and real cases.
- Abstract(参考訳): 大規模言語モデル (LLMs) は, 様々なNLPタスクや現代医学に優れるが, 伝統的な漢方医学(TCM)における評価は過小評価されている。
そこで本研究では,TCM における LLM の評価を行うベンチマークである TCM3CEval について紹介する。
我々は、国際(eg, GPT-4o)、中国(eg, InternLM)、医療特化(eg, PLUSE)など多様なモデルを評価する。
全てのモデルはメリディアン・アンド・アクポイント理論や様々なTCMスクールのような特殊なサブドメインに制限があり、現在の能力と臨床ニーズのギャップを明らかにする。
古典的テキストの解釈や臨床推論において、中国語と文化の先行するモデルの方が優れている。
TCM-3CEvalは、文化に根ざした医療領域におけるLLMを最適化するための洞察を提供する、TCMにおけるAI評価の標準を設定している。
このベンチマークはMedbenchのTCMトラックで利用可能であり、基本的な知識、古典的なテキスト、そして多次元の質問や実例による臨床的意思決定においてLLMのTCM能力を評価することを目的としている。
関連論文リスト
- BianCang: A Traditional Chinese Medicine Large Language Model [22.582027277167047]
BianCangはTCM固有の大規模言語モデル(LLM)で、まずドメイン固有の知識を注入し、目標とする刺激によって調整する。
実際の病院記録に基づく事前学習コーパス,ChP-TCMデータセット,および中華人民共和国の薬局類由来のChP-TCMデータセットを構築した。
我々は,TCMの理解を深めるための包括的なデータセットを構築し,連続的な事前学習と微調整のための広範囲なTCMと医療コーパスを収集した。
論文 参考訳(メタデータ) (2024-11-17T10:17:01Z) - Intelligent Understanding of Large Language Models in Traditional Chinese Medicine Based on Prompt Engineering Framework [3.990633038739491]
本稿では,事前学習型言語モデル(PLM)やテンプレート,トークン化,動詞化などを統合するフレームワークであるTCM-Promptを提案する。
疾患分類,シンドローム同定,ハーブ・メディカル・レコメンデーション,一般NLPタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-10-25T10:24:30Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine [19.680694337954133]
大規模言語モデル(LLM)の専門的評価ベンチマークは、伝統的な中国医学(TCM)領域ではまだカバーされていない。
そこで本研究では,TCMにおけるLLM性能を評価するための総合的なベンチマークであるTCM-Benchを紹介する。
TCM-EDデータセットは、TCM Licensing Exam (TCMLE)から得られた5,473の質問から成り、権威分析を伴う1,300の質問を含む。
質問応答の精度を超えてLLMを評価するために,TCM関連質問に対してLLMが生成する回答の質を評価するための指標であるTCMScoreを提案する。
論文 参考訳(メタデータ) (2024-06-03T09:11:13Z) - Exploring the Comprehension of ChatGPT in Traditional Chinese Medicine Knowledge [0.0]
我々は,TCM-QAという問合せデータセットを提示する。これは,1つの選択,複数の選択,真または偽の3つの問合せタイプからなる。
本研究では,LLMの2つの設定,ゼロショットと少数ショットの設定を評価し,英語と中国語のプロンプトの違いを同時に議論した。
以上の結果から,ChatGPTの精度は0.688であり,最も低い精度は0.241であることがわかった。
論文 参考訳(メタデータ) (2024-03-14T08:20:40Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - CMB: A Comprehensive Medical Benchmark in Chinese [67.69800156990952]
そこで我々は,中国語の包括的医療ベンチマークであるCMB(Comprehensive Medical Benchmark)を提案する。
伝統的な中国医学はこの評価に欠かせないものであるが、全体としては成り立たない。
われわれは,ChatGPT,GPT-4,中国専用LSM,医療分野に特化したLSMなど,いくつかの大規模LSMを評価した。
論文 参考訳(メタデータ) (2023-08-17T07:51:23Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。