論文の概要: Exploring the Comprehension of ChatGPT in Traditional Chinese Medicine Knowledge
- arxiv url: http://arxiv.org/abs/2403.09164v1
- Date: Thu, 14 Mar 2024 08:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:26:58.549764
- Title: Exploring the Comprehension of ChatGPT in Traditional Chinese Medicine Knowledge
- Title(参考訳): 伝統的な中国医学知識におけるチャットGPTの理解を探る
- Authors: Li Yizhen, Huang Shaohan, Qi Jiaxing, Quan Lei, Han Dongran, Luan Zhongzhi,
- Abstract要約: 我々は,TCM-QAという問合せデータセットを提示する。これは,1つの選択,複数の選択,真または偽の3つの問合せタイプからなる。
本研究では,LLMの2つの設定,ゼロショットと少数ショットの設定を評価し,英語と中国語のプロンプトの違いを同時に議論した。
以上の結果から,ChatGPTの精度は0.688であり,最も低い精度は0.241であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: No previous work has studied the performance of Large Language Models (LLMs) in the context of Traditional Chinese Medicine (TCM), an essential and distinct branch of medical knowledge with a rich history. To bridge this gap, we present a TCM question dataset named TCM-QA, which comprises three question types: single choice, multiple choice, and true or false, to examine the LLM's capacity for knowledge recall and comprehensive reasoning within the TCM domain. In our study, we evaluate two settings of the LLM, zero-shot and few-shot settings, while concurrently discussing the differences between English and Chinese prompts. Our results indicate that ChatGPT performs best in true or false questions, achieving the highest precision of 0.688 while scoring the lowest precision is 0.241 in multiple-choice questions. Furthermore, we observed that Chinese prompts outperformed English prompts in our evaluations. Additionally, we assess the quality of explanations generated by ChatGPT and their potential contribution to TCM knowledge comprehension. This paper offers valuable insights into the applicability of LLMs in specialized domains and paves the way for future research in leveraging these powerful models to advance TCM.
- Abstract(参考訳): 従来の中国医学(TCM)における言語モデル(LLM)の性能に関する研究は行われていない。
このギャップを埋めるために,TCM-QAという,単一選択,複数選択,真偽の3つの質問タイプからなるTCM質問データセットを提案する。
本研究では,LLMの2つの設定,ゼロショットと少数ショットの設定を評価し,英語と中国語のプロンプトの違いを同時に議論した。
以上の結果から,ChatGPTの精度は0.688であり,最も低い精度は0.241であることがわかった。
さらに、我々の評価では、中国語のプロンプトが英語のプロンプトより優れていた。
さらに、ChatGPTが生成する説明の質と、TCMの知識理解への潜在的貢献を評価する。
本稿では、特殊領域におけるLCMの適用性に関する貴重な知見を提供し、これらの強力なモデルを活用してTCMを前進させる今後の研究の道を開く。
関連論文リスト
- Multiple Choice Questions and Large Languages Models: A Case Study with Fictional Medical Data [3.471944921180245]
非存在腺であるGlianorexに焦点をあてた架空の医療ベンチマークを開発した。
このアプローチにより、LSMの知識をテストテイク能力から切り離すことができます。
我々は、これらの質問をゼロショット設定で、様々なオープンソース、プロプライエタリ、ドメイン固有のLCMを評価した。
論文 参考訳(メタデータ) (2024-06-04T15:08:56Z) - TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine [19.680694337954133]
大規模言語モデル(LLM)の専門的評価ベンチマークは、伝統的な中国医学(TCM)領域ではまだカバーされていない。
そこで本研究では,TCMにおけるLLM性能を評価するための総合的なベンチマークであるTCM-Benchを紹介する。
TCM-EDデータセットは、TCM Licensing Exam (TCMLE)から得られた5,473の質問から成り、権威分析を伴う1,300の質問を含む。
質問応答の精度を超えてLLMを評価するために,TCM関連質問に対してLLMが生成する回答の質を評価するための指標であるTCMScoreを提案する。
論文 参考訳(メタデータ) (2024-06-03T09:11:13Z) - Qibo: A Large Language Model for Traditional Chinese Medicine [10.394665777883064]
伝統的な中国医学には、理論と近代医学の根本的な違いのような課題がある。
本研究では,継続的事前学習と教師付き微調整を組み合わせた2段階学習手法を提案する。
本研究の特筆すべき貢献は,TCM専用の2GBコーパスの処理である。
論文 参考訳(メタデータ) (2024-03-24T07:48:05Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain [24.411904114158673]
我々は、中国生物医学言語理解評価(CBlue)ベンチマークを大規模なプロンプトチューニングベンチマークであるPromptCBlueに再構築した。
我々のベンチマークは、幅広いバイオメディカルタスクにおいて、中国のLCMのマルチタスク能力を評価するのに適したテストベッドであり、オンラインプラットフォームである。
論文 参考訳(メタデータ) (2023-10-22T02:20:38Z) - CMB: A Comprehensive Medical Benchmark in Chinese [67.69800156990952]
そこで我々は,中国語の包括的医療ベンチマークであるCMB(Comprehensive Medical Benchmark)を提案する。
伝統的な中国医学はこの評価に欠かせないものであるが、全体としては成り立たない。
われわれは,ChatGPT,GPT-4,中国専用LSM,医療分野に特化したLSMなど,いくつかの大規模LSMを評価した。
論文 参考訳(メタデータ) (2023-08-17T07:51:23Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese
Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。
CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。
LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文 参考訳(メタデータ) (2023-06-05T16:48:41Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。