論文の概要: Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries
- arxiv url: http://arxiv.org/abs/2305.10163v3
- Date: Mon, 29 Jan 2024 03:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 22:41:05.841094
- Title: Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries
- Title(参考訳): 外部知識を活用した大規模言語モデルによる言語境界を越えた臨床洞察の拡張
- Authors: Jiageng Wu, Xian Wu, Zhaopeng Qiu, Minghui Li, Yingying Zhang, Yefeng
Zheng, and Jie Yang
- Abstract要約: LLM(Large Language Models)は、様々な医学的問合せタスクに優れています。
これらの英語中心のモデルは、英語以外の臨床環境での課題に直面している。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
- 参考スコア(独自算出の注目度): 48.48630043740588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objectives: Large Language Models (LLMs) such as ChatGPT and Med-PaLM have
excelled in various medical question-answering tasks. However, these
English-centric models encounter challenges in non-English clinical settings,
primarily due to limited clinical knowledge in respective languages, a
consequence of imbalanced training corpora. We systematically evaluate LLMs in
the Chinese medical context and develop a novel in-context learning framework
to enhance their performance.
Materials and Methods: The latest China National Medical Licensing
Examination (CNMLE-2022) served as the benchmark. We collected 53 medical books
and 381,149 medical questions to construct the medical knowledge base and
question bank. The proposed Knowledge and Few-shot Enhancement In-context
Learning (KFE) framework leverages the in-context learning ability of LLMs to
integrate diverse external clinical knowledge sources. We evaluated KFE with
ChatGPT(GPT3.5), GPT4, Baichuan2-7b, and Baichuan2-13B in CNMLE-2022 and
further investigated the effectiveness of different pathways for incorporating
LLMs with medical knowledge from seven distinct perspectives.
Results: Directly applying ChatGPT failed to qualify for the CNMLE-2022 at a
score of 51. Cooperated with the KFE framework, the LLMs with varying sizes
yielded consistent and significant improvements. The ChatGPT's performance
surged to 70.04 and GPT-4 achieved the highest score of 82.59. This surpasses
the qualification threshold (60) and exceeds the average human score of 68.70,
affirming the effectiveness and robustness of the framework. It also enabled a
smaller Baichuan2-13B to pass the examination, showcasing the great potential
in low-resource settings. This study shed light on the optimal practices to
enhance the capabilities of LLMs in non-English medical scenarios.
- Abstract(参考訳): 目的: ChatGPT や Med-PaLM のような大規模言語モデル (LLM) は、様々な質問応答タスクに優れています。
しかし、これらの英語中心のモデルは、主に各言語における臨床知識が限られており、不均衡なトレーニングコーパスの結果、非英語の臨床設定において困難に直面する。
中国の医学的文脈でLLMを体系的に評価し、その性能を高めるための新しい文脈内学習フレームワークを開発する。
材料と方法:最新の中国国立医学ライセンス試験(CNMLE-2022)がベンチマークとして使用された。
医療知識基盤と質問銀行を構築するため,53冊の医療書,381,149件の医療質問を収集した。
提案するKFE(Knowledge and Few-shot Enhancement In-context Learning)フレームワークは,LLMのコンテキスト内学習能力を活用して,多様な外部臨床知識ソースを統合する。
CNMLE-2022において、KFEをChatGPT(GPT3.5)、GPT4、Baichuan2-7b、Baichuan2-13Bで評価し、7つの異なる観点からLSMを医療的知識に組み込むための異なる経路の有効性について検討した。
結果: ChatGPT の直接適用は CNMLE-2022 のスコア51。
KFEフレームワークと連携して、様々なサイズを持つLLMは一貫性と大幅な改善をもたらした。
ChatGPTのパフォーマンスは70.04に上昇し、GPT-4は82.59で最高点を記録した。
これは資格閾値(60)を超え、平均的人間のスコア68.70を超え、フレームワークの有効性と堅牢性を確認する。
また、小型のBaichuan2-13Bが試験に合格し、低リソース環境における大きな可能性を示した。
本研究は、英語以外の医学的シナリオにおけるLSMの能力を高めるための最適な実践について明らかにした。
関連論文リスト
- MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering [8.110978727364397]
大規模言語モデル(LLM)は、人工知能技術の発展を促進する可能性を秘めている。
本稿では,MedExpQAについて述べる。MedExpQAは,医学質問応答におけるLSMを評価するための,医学試験に基づく最初の多言語ベンチマークである。
論文 参考訳(メタデータ) (2024-04-08T15:03:57Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training
Regime and Better Alignment to Human Preferences [55.42521181558716]
中国医学領域向けに設計された新しいベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、コンテキスト長を4,096トークンに拡大し、事前トレーニング、SFT、RLHFを含む総合的なトレーニング体制を実行している。
情報抽出,質問応答,対話生成などの実世界のタスクの評価は,一般的なドメインLLMよりもChiMed-GPTの方が優れた性能を示している。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain [24.411904114158673]
我々は、中国生物医学言語理解評価(CBlue)ベンチマークを大規模なプロンプトチューニングベンチマークであるPromptCBlueに再構築した。
我々のベンチマークは、幅広いバイオメディカルタスクにおいて、中国のLCMのマルチタスク能力を評価するのに適したテストベッドであり、オンラインプラットフォームである。
論文 参考訳(メタデータ) (2023-10-22T02:20:38Z) - Augmenting Black-box LLMs with Medical Textbooks for Clinical Question
Answering [54.13933019557655]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - A Comparative Study of Open-Source Large Language Models, GPT-4 and
Claude 2: Multiple-Choice Test Taking in Nephrology [0.6213359027997152]
本研究は,LLMモデルがNephSAP多重選択質問に対する正しい回答を提供する能力を評価するために行われた。
本研究の結果は将来の医療訓練や患者医療に重大な影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-08-09T05:01:28Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese
Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。
CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。
LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文 参考訳(メタデータ) (2023-06-05T16:48:41Z) - Are Large Language Models Ready for Healthcare? A Comparative Study on
Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。
本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文 参考訳(メタデータ) (2023-04-09T16:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。