論文の概要: OpenTCM: A GraphRAG-Empowered LLM-based System for Traditional Chinese Medicine Knowledge Retrieval and Diagnosis
- arxiv url: http://arxiv.org/abs/2504.20118v1
- Date: Mon, 28 Apr 2025 08:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.606447
- Title: OpenTCM: A GraphRAG-Empowered LLM-based System for Traditional Chinese Medicine Knowledge Retrieval and Diagnosis
- Title(参考訳): OpenTCM: 従来の中国医学知識検索と診断のためのグラフRAGを利用したLLMベースのシステム
- Authors: Jinglin He, Yunqi Guo, Lai Kwan Lam, Waikei Leung, Lixing He, Yuanan Jiang, Chi Chiu Wang, Guoliang Xing, Hongkai Chen,
- Abstract要約: 伝統的な中国医学(TCM)は、現代医療において重要な役割を担っている古代医学知識の豊富なリポジトリである。
TCMの文献の複雑さと広さのため、AIテクノロジの統合は、その近代化とより広範なアクセシビリティにおいて重要である。
本稿では、ドメイン固有のTCM知識グラフとグラフベースの検索拡張生成(GraphRAG)を組み合わせたLLMベースのOpenTCMを開発する。
- 参考スコア(独自算出の注目度): 2.639291045535649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional Chinese Medicine (TCM) represents a rich repository of ancient medical knowledge that continues to play an important role in modern healthcare. Due to the complexity and breadth of the TCM literature, the integration of AI technologies is critical for its modernization and broader accessibility. However, this integration poses considerable challenges, including the interpretation of obscure classical Chinese texts and the modeling of intricate semantic relationships among TCM concepts. In this paper, we develop OpenTCM, an LLM-based system that combines a domain-specific TCM knowledge graph and Graph-based Retrieval-Augmented Generation (GraphRAG). First, we extract more than 3.73 million classical Chinese characters from 68 gynecological books in the Chinese Medical Classics Database, with the help of TCM and gynecology experts. Second, we construct a comprehensive multi-relational knowledge graph comprising more than 48,000 entities and 152,000 interrelationships, using customized prompts and Chinese-oriented LLMs such as DeepSeek and Kimi to ensure high-fidelity semantic understanding. Last, we integrate OpenTCM with this knowledge graph, enabling high-fidelity ingredient knowledge retrieval and diagnostic question-answering without model fine-tuning. Experimental evaluations demonstrate that our prompt design and model selection significantly improve knowledge graph quality, achieving a precision of 98. 55% and an F1 score of 99. 55%. In addition, OpenTCM achieves mean expert scores of 4.5 in ingredient information retrieval and 3.8 in diagnostic question-answering tasks, outperforming state-of-the-art solutions in real-world TCM use cases.
- Abstract(参考訳): 伝統的な中国医学(TCM)は、現代医療において重要な役割を担っている古代医学知識の豊富なリポジトリである。
TCMの文献の複雑さと広さのため、AIテクノロジの統合は、その近代化とより広範なアクセシビリティにおいて重要である。
しかし、この統合は、不明瞭な漢文の解釈や、TCM概念間の複雑な意味関係のモデル化など、かなりの課題を生んでいる。
本稿では、ドメイン固有のTCM知識グラフとグラフベースの検索・拡張生成(GraphRAG)を組み合わせたLLMベースのOpenTCMを開発する。
まず,中国医学古典データベースの68冊の婦人科本から,TCMや婦人科の専門家の助けを借りて,330万以上の古典的漢字を抽出した。
次に,DeepSeek や Kimi などの中国指向の LLM を用いて,48,000 以上のエンティティと 152,000 の相互関係からなる総合的多関係知識グラフを構築した。
最後に、この知識グラフとOpenTCMを統合し、モデル微調整なしで高忠実度成分知識検索と診断質問応答を可能にする。
実験により,我々の素早い設計とモデル選択により知識グラフの品質が向上し,精度が向上することが実証された。
98.55%、F1スコア
99. 55%
さらに、OpenTCMは、材料情報検索の4.5点、診断質問応答タスクの3.8点のエキスパートスコアを達成し、現実のTCMのユースケースでは最先端のソリューションよりも優れている。
関連論文リスト
- TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine [10.74071774496229]
大規模言語モデル (LLMs) は, 様々なNLPタスクや現代医学に優れるが, 伝統的な漢方医学(TCM)における評価は過小評価されている。
そこで本研究では,TCM における LLM の評価を行うベンチマークである TCM3CEval について紹介する。
全てのモデルはメリディアン・アンド・アクポイント理論や様々なTCMスクールのような特殊性に制限があり、現在の能力と臨床ニーズのギャップを明らかにする。
論文 参考訳(メタデータ) (2025-03-10T08:29:15Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - Graph Neural Networks for Quantifying Compatibility Mechanisms in Traditional Chinese Medicine [0.0]
我々は,従来のTCM理論と現代生物医学科学を橋渡しする知識グラフを開発した。
本研究は,解釈可能なモデル,オープンソースデータ,コードを用いて,TCM理論の進歩と薬物発見のための堅牢なツールを提供する。
論文 参考訳(メタデータ) (2024-11-18T11:16:13Z) - BianCang: A Traditional Chinese Medicine Large Language Model [22.582027277167047]
BianCangはTCM固有の大規模言語モデル(LLM)で、まずドメイン固有の知識を注入し、目標とする刺激によって調整する。
実際の病院記録に基づく事前学習コーパス,ChP-TCMデータセット,および中華人民共和国の薬局類由来のChP-TCMデータセットを構築した。
我々は,TCMの理解を深めるための包括的なデータセットを構築し,連続的な事前学習と微調整のための広範囲なTCMと医療コーパスを収集した。
論文 参考訳(メタデータ) (2024-11-17T10:17:01Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。
FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文 参考訳(メタデータ) (2024-08-17T15:18:56Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Exploring the Comprehension of ChatGPT in Traditional Chinese Medicine Knowledge [0.0]
我々は,TCM-QAという問合せデータセットを提示する。これは,1つの選択,複数の選択,真または偽の3つの問合せタイプからなる。
本研究では,LLMの2つの設定,ゼロショットと少数ショットの設定を評価し,英語と中国語のプロンプトの違いを同時に議論した。
以上の結果から,ChatGPTの精度は0.688であり,最も低い精度は0.241であることがわかった。
論文 参考訳(メタデータ) (2024-03-14T08:20:40Z) - MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway
Encoding [48.348511646407026]
本稿では,知識向上と臨床パスウェイ符号化フレームワークを用いた医療対話について紹介する。
このフレームワークは、医療知識グラフを介して外部知識増強モジュールと、医療機関および医師の行動を介して、内部臨床経路をコードする。
論文 参考訳(メタデータ) (2024-03-11T10:57:45Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - TCM-SD: A Benchmark for Probing Syndrome Differentiation via Natural
Language Processing [31.190757020836656]
TCM診断・治療システムの中核的課題に焦点をあてる -- 症候群分化(SD)
本データセットは,148症例を対象とした実世界の臨床記録54,152例を含む。
本稿では、ZY-BERTと呼ばれるドメイン固有の事前学習言語モデルを提案する。
論文 参考訳(メタデータ) (2022-03-21T09:59:54Z) - Knowledge-Empowered Representation Learning for Chinese Medical Reading
Comprehension: Task, Model and Resources [36.960318276653986]
医療領域を対象としたマルチターゲットMRCタスクを導入し,医療質問に対する回答とそれに対応する文章を同時に予測することを目的とする。
本稿では, 医学知識を事前学習言語モデルに融合させる, タスクのための中国の医療用BERTモデル(CMedBERT)を提案する。
実験の結果,CMedBERTはコンテキスト認識と知識認識のトークン表現を融合することにより,強いベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2020-08-24T11:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。