論文の概要: ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine
- arxiv url: http://arxiv.org/abs/2508.14706v1
- Date: Wed, 20 Aug 2025 13:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.468021
- Title: ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine
- Title(参考訳): シージエンGPT:中国伝統医学のためのマルチモーダルLCMを目指して
- Authors: Junying Chen, Zhenyang Cai, Zhiheng Liu, Yunjin Yang, Rongsheng Wang, Qingying Xiao, Xiangyi Feng, Zhan Su, Jing Guo, Xiang Wan, Guangjun Yu, Haizhou Li, Benyou Wang,
- Abstract要約: 我々は、中国伝統医学(TCM)に適した最初の多モーダル言語モデルであるシージエンGPTを提示する。
シッシェンGPTは、深いTCM知識とマルチモーダル推論を達成するために、事前訓練され、訓練されている。
実験によると、ShizhenGPTはLLMよりも優れており、より大きなプロプライエタリモデルと競合する。
- 参考スコア(独自算出の注目度): 53.91744478760689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of large language models (LLMs) in various domains, their potential in Traditional Chinese Medicine (TCM) remains largely underexplored due to two critical barriers: (1) the scarcity of high-quality TCM data and (2) the inherently multimodal nature of TCM diagnostics, which involve looking, listening, smelling, and pulse-taking. These sensory-rich modalities are beyond the scope of conventional LLMs. To address these challenges, we present ShizhenGPT, the first multimodal LLM tailored for TCM. To overcome data scarcity, we curate the largest TCM dataset to date, comprising 100GB+ of text and 200GB+ of multimodal data, including 1.2M images, 200 hours of audio, and physiological signals. ShizhenGPT is pretrained and instruction-tuned to achieve deep TCM knowledge and multimodal reasoning. For evaluation, we collect recent national TCM qualification exams and build a visual benchmark for Medicinal Recognition and Visual Diagnosis. Experiments demonstrate that ShizhenGPT outperforms comparable-scale LLMs and competes with larger proprietary models. Moreover, it leads in TCM visual understanding among existing multimodal LLMs and demonstrates unified perception across modalities like sound, pulse, smell, and vision, paving the way toward holistic multimodal perception and diagnosis in TCM. Datasets, models, and code are publicly available. We hope this work will inspire further exploration in this field.
- Abstract(参考訳): 様々な領域における大規模言語モデル(LLM)の成功にもかかわらず、従来の中国医学(TCM)におけるその潜在能力は、(1)高品質のTCMデータの不足、(2)ルック、リスニング、嗅覚、パルステイクを含む本質的にマルチモーダルな性質の2つの重要な障壁により、ほとんど解明されていない。
これらの感覚に富むモダリティは、従来のLLMの範囲を超えている。
これらの課題に対処するため,TCM用に調整された最初のマルチモーダルLLMであるShizhenGPTを提案する。
データ不足を克服するために、100GB以上のテキストと200GB以上のマルチモーダルデータ、1.2Mイメージ、200時間のオーディオ、生理的信号を含む、これまでで最大のTCMデータセットをキュレートする。
シッシェンGPTは、深いTCM知識とマルチモーダル推論を達成するために、事前訓練され、訓練されている。
評価のために,最近の全国TCM資格試験を収集し,医薬認識と視覚診断のための視覚的ベンチマークを構築した。
実験によると、ShizhenGPTはLLMよりも優れており、より大きなプロプライエタリモデルと競合する。
さらに、既存のマルチモーダルLLM間のTCM視覚理解を導き、音、脈波、嗅覚、視覚といったモーダル性にまたがる統一的な認識を示し、TCMにおける総合的なマルチモーダル認識と診断への道を開く。
データセット、モデル、コードは公開されています。
この研究がこの分野のさらなる探索を促すことを願っている。
関連論文リスト
- MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Tianyi: A Traditional Chinese Medicine all-rounder language model and its Real-World Clinical Practice [15.020917068333237]
Tianyiは、相互接続された、系統的なTCM知識を、進歩的な学習方法で同化するように設計されている。
広範囲な評価は、TCM臨床および研究におけるAIアシスタントとしてのTianyiの有意義な可能性を示している。
論文 参考訳(メタデータ) (2025-05-19T14:17:37Z) - OpenTCM: A GraphRAG-Empowered LLM-based System for Traditional Chinese Medicine Knowledge Retrieval and Diagnosis [2.639291045535649]
OpenTCMはドメイン固有の知識グラフであり、グラフベースの検索・拡張生成システムである。
我々は,中国医学古典データベースの68冊の婦人科本から,330万以上の漢文字を抽出した。
OpenTCMは、材料情報検索における4.378、診断質問応答タスクにおける4.045の平均エキスパートスコア(MES)を達成している。
論文 参考訳(メタデータ) (2025-04-28T08:04:44Z) - TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine [10.74071774496229]
大規模言語モデル (LLMs) は, 様々なNLPタスクや現代医学に優れるが, 伝統的な漢方医学(TCM)における評価は過小評価されている。
そこで本研究では,TCM における LLM の評価を行うベンチマークである TCM3CEval について紹介する。
全てのモデルはメリディアン・アンド・アクポイント理論や様々なTCMスクールのような特殊性に制限があり、現在の能力と臨床ニーズのギャップを明らかにする。
論文 参考訳(メタデータ) (2025-03-10T08:29:15Z) - BianCang: A Traditional Chinese Medicine Large Language Model [22.582027277167047]
BianCangはTCM固有の大規模言語モデル(LLM)で、まずドメイン固有の知識を注入し、目標とする刺激によって調整する。
実際の病院記録に基づく事前学習コーパス,ChP-TCMデータセット,および中華人民共和国の薬局類由来のChP-TCMデータセットを構築した。
我々は,TCMの理解を深めるための包括的なデータセットを構築し,連続的な事前学習と微調整のための広範囲なTCMと医療コーパスを収集した。
論文 参考訳(メタデータ) (2024-11-17T10:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。