論文の概要: TCM-Ladder: A Benchmark for Multimodal Question Answering on Traditional Chinese Medicine
- arxiv url: http://arxiv.org/abs/2505.24063v1
- Date: Thu, 29 May 2025 23:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.697842
- Title: TCM-Ladder: A Benchmark for Multimodal Question Answering on Traditional Chinese Medicine
- Title(参考訳): TCM-Ladder:中国伝統医学におけるマルチモーダル質問のベンチマーク
- Authors: Jiacheng Xie, Yang Yu, Ziyang Zhang, Shuai Zeng, Jiaxuan He, Ayush Vasireddy, Xiaoting Tang, Congyu Guo, Lening Zhao, Congcong Jing, Guanghui An, Dong Xu,
- Abstract要約: 我々は,大規模なTCM言語モデルを評価するために特別に設計された,最初のマルチモーダルQAデータセットであるTCM-Ladderを紹介する。
このデータセットは、基礎理論、診断、草本式、内科、外科、薬物療法、小児科を含む、TCMの複数の中核領域にまたがる。
データセットは、自動と手動のフィルタリングプロセスを組み合わせて構築され、合計で52,000以上の質問で構成されている。
- 参考スコア(独自算出の注目度): 21.46828174190836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional Chinese Medicine (TCM), as an effective alternative medicine, has been receiving increasing attention. In recent years, the rapid development of large language models (LLMs) tailored for TCM has underscored the need for an objective and comprehensive evaluation framework to assess their performance on real-world tasks. However, existing evaluation datasets are limited in scope and primarily text-based, lacking a unified and standardized multimodal question-answering (QA) benchmark. To address this issue, we introduce TCM-Ladder, the first multimodal QA dataset specifically designed for evaluating large TCM language models. The dataset spans multiple core disciplines of TCM, including fundamental theory, diagnostics, herbal formulas, internal medicine, surgery, pharmacognosy, and pediatrics. In addition to textual content, TCM-Ladder incorporates various modalities such as images and videos. The datasets were constructed using a combination of automated and manual filtering processes and comprise 52,000+ questions in total. These questions include single-choice, multiple-choice, fill-in-the-blank, diagnostic dialogue, and visual comprehension tasks. We trained a reasoning model on TCM-Ladder and conducted comparative experiments against 9 state-of-the-art general domain and 5 leading TCM-specific LLMs to evaluate their performance on the datasets. Moreover, we propose Ladder-Score, an evaluation method specifically designed for TCM question answering that effectively assesses answer quality regarding terminology usage and semantic expression. To our knowledge, this is the first work to evaluate mainstream general domain and TCM-specific LLMs on a unified multimodal benchmark. The datasets and leaderboard are publicly available at https://tcmladder.com or https://54.211.107.106 and will be continuously updated.
- Abstract(参考訳): 従来の中国医学(TCM)は効果的な代替医療として注目されている。
近年,TCMに適した大規模言語モデル (LLM) の急速な開発は,現実のタスクにおける性能を評価するための客観的かつ包括的な評価フレームワークの必要性を浮き彫りにしている。
しかし、既存の評価データセットはスコープに限られており、主にテキストベースであり、統一的で標準化されたマルチモーダル質問回答(QA)ベンチマークが欠如している。
この問題に対処するために,大規模なTCM言語モデルを評価するために設計された,最初のマルチモーダルQAデータセットであるTCM-Ladderを紹介する。
このデータセットは、基礎理論、診断、草本式、内科、外科、薬物療法、小児科を含む、TCMの複数の中核領域にまたがる。
テキストコンテンツに加えて、TCM-Ladderは画像やビデオなどの様々なモダリティを取り入れている。
データセットは、自動と手動のフィルタリングプロセスを組み合わせて構築され、合計で52,000以上の質問で構成されている。
これらの質問には、シングルチョイス、マルチチョイス、フィ・イン・ザ・ブランク、診断対話、視覚的理解タスクが含まれる。
我々はTCM-Ladderで推論モデルを訓練し、9つの最先端の一般ドメインと5つのTCM固有のLCMに対して比較実験を行い、データセットの性能を評価した。
さらに,TCM質問応答のための評価手法であるLadder-Scoreを提案する。
我々の知る限り、これは主要な汎用ドメインとTCM固有のLLMを統一マルチモーダルベンチマークで評価する最初の試みである。
データセットとリーダボードはhttps://tcmladder.comまたはhttps://54.211.107.106で公開されている。
関連論文リスト
- TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine [10.74071774496229]
大規模言語モデル (LLMs) は, 様々なNLPタスクや現代医学に優れるが, 伝統的な漢方医学(TCM)における評価は過小評価されている。
そこで本研究では,TCM における LLM の評価を行うベンチマークである TCM3CEval について紹介する。
全てのモデルはメリディアン・アンド・アクポイント理論や様々なTCMスクールのような特殊性に制限があり、現在の能力と臨床ニーズのギャップを明らかにする。
論文 参考訳(メタデータ) (2025-03-10T08:29:15Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine [19.680694337954133]
大規模言語モデル(LLM)の専門的評価ベンチマークは、伝統的な中国医学(TCM)領域ではまだカバーされていない。
そこで本研究では,TCMにおけるLLM性能を評価するための総合的なベンチマークであるTCM-Benchを紹介する。
TCM-EDデータセットは、TCM Licensing Exam (TCMLE)から得られた5,473の質問から成り、権威分析を伴う1,300の質問を含む。
質問応答の精度を超えてLLMを評価するために,TCM関連質問に対してLLMが生成する回答の質を評価するための指標であるTCMScoreを提案する。
論文 参考訳(メタデータ) (2024-06-03T09:11:13Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - TCM-GPT: Efficient Pre-training of Large Language Models for Domain
Adaptation in Traditional Chinese Medicine [11.537289359051975]
ドメイン固有コーパスを用いた効率的な事前学習を行うTCMDA(TCM Domain Adaptation)アプローチを提案する。
具体的には、まず、ドメインキーワードを識別し、一般コーパスから再帰することで、TCM固有の大規模コーパスTCM-Corpus-1Bを構築する。
そこで,本TCMDAでは,事前学習および微調整のために,事前学習したモデルの重量を凍結するLoRAを活用し,ランク分解行列を用いて特定の密度層を効率的に訓練する。
論文 参考訳(メタデータ) (2023-11-03T08:54:50Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。