Fugu-MT 論文翻訳(概要): Large Language Models Leverage External Knowledge to Extend Clinical Insight Beyond Language Boundaries

論文の概要: Large Language Models Leverage External Knowledge to Extend Clinical Insight Beyond Language Boundaries

arxiv url: http://arxiv.org/abs/2305.10163v3
Date: Mon, 29 Jan 2024 03:25:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 22:41:05.841094
Title: Large Language Models Leverage External Knowledge to Extend Clinical Insight Beyond Language Boundaries
Title（参考訳）: 外部知識を活用した大規模言語モデルによる言語境界を越えた臨床洞察の拡張
Authors: Jiageng Wu, Xian Wu, Zhaopeng Qiu, Minghui Li, Yingying Zhang, Yefeng Zheng, and Jie Yang
Abstract要約: LLM(Large Language Models)は、様々な医学的問合せタスクに優れています。これらの英語中心のモデルは、英語以外の臨床環境での課題に直面している。我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
参考スコア（独自算出の注目度）: 48.48630043740588
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Objectives: Large Language Models (LLMs) such as ChatGPT and Med-PaLM have excelled in various medical question-answering tasks. However, these English-centric models encounter challenges in non-English clinical settings, primarily due to limited clinical knowledge in respective languages, a consequence of imbalanced training corpora. We systematically evaluate LLMs in the Chinese medical context and develop a novel in-context learning framework to enhance their performance. Materials and Methods: The latest China National Medical Licensing Examination (CNMLE-2022) served as the benchmark. We collected 53 medical books and 381,149 medical questions to construct the medical knowledge base and question bank. The proposed Knowledge and Few-shot Enhancement In-context Learning (KFE) framework leverages the in-context learning ability of LLMs to integrate diverse external clinical knowledge sources. We evaluated KFE with ChatGPT(GPT3.5), GPT4, Baichuan2-7b, and Baichuan2-13B in CNMLE-2022 and further investigated the effectiveness of different pathways for incorporating LLMs with medical knowledge from seven distinct perspectives. Results: Directly applying ChatGPT failed to qualify for the CNMLE-2022 at a score of 51. Cooperated with the KFE framework, the LLMs with varying sizes yielded consistent and significant improvements. The ChatGPT's performance surged to 70.04 and GPT-4 achieved the highest score of 82.59. This surpasses the qualification threshold (60) and exceeds the average human score of 68.70, affirming the effectiveness and robustness of the framework. It also enabled a smaller Baichuan2-13B to pass the examination, showcasing the great potential in low-resource settings. This study shed light on the optimal practices to enhance the capabilities of LLMs in non-English medical scenarios.
Abstract（参考訳）: 目的: ChatGPT や Med-PaLM のような大規模言語モデル (LLM) は、様々な質問応答タスクに優れています。しかし、これらの英語中心のモデルは、主に各言語における臨床知識が限られており、不均衡なトレーニングコーパスの結果、非英語の臨床設定において困難に直面する。中国の医学的文脈でLLMを体系的に評価し、その性能を高めるための新しい文脈内学習フレームワークを開発する。材料と方法:最新の中国国立医学ライセンス試験(CNMLE-2022)がベンチマークとして使用された。医療知識基盤と質問銀行を構築するため,53冊の医療書,381,149件の医療質問を収集した。提案するKFE(Knowledge and Few-shot Enhancement In-context Learning)フレームワークは,LLMのコンテキスト内学習能力を活用して,多様な外部臨床知識ソースを統合する。 CNMLE-2022において、KFEをChatGPT(GPT3.5)、GPT4、Baichuan2-7b、Baichuan2-13Bで評価し、7つの異なる観点からLSMを医療的知識に組み込むための異なる経路の有効性について検討した。結果: ChatGPT の直接適用は CNMLE-2022 のスコア51。 KFEフレームワークと連携して、様々なサイズを持つLLMは一貫性と大幅な改善をもたらした。 ChatGPTのパフォーマンスは70.04に上昇し、GPT-4は82.59で最高点を記録した。これは資格閾値(60)を超え、平均的人間のスコア68.70を超え、フレームワークの有効性と堅牢性を確認する。また、小型のBaichuan2-13Bが試験に合格し、低リソース環境における大きな可能性を示した。本研究は、英語以外の医学的シナリオにおけるLSMの能力を高めるための最適な実践について明らかにした。

関連論文リスト

MIRIAD: Augmenting LLMs with millions of medical query-response pairs [36.32674607022871]
医療用QAペア5,821,948の大規模キュレートコーパスであるMIRIADを紹介する。また,MIRIADの精度はRAGベースラインに比べて6.7%向上した。 56の医学分野にまたがるMIRIADのインタラクティブマップであるMIRIAD-Atlasについても紹介する。
論文参考訳（メタデータ） (2025-06-06T13:52:32Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
Can Large Language Models Logically Predict Myocardial Infarction? Evaluation based on UK Biobank Cohort [10.66506859118868]
大規模言語モデル (LLMs) は臨床的意思決定支援の分野で非常に進歩している。本研究の目的は,急性心筋梗塞(MI)の発症リスクを論理的推論で予測できることを定量的に評価することである。
論文参考訳（メタデータ） (2024-09-22T14:57:31Z)
Multiple Choice Questions and Large Languages Models: A Case Study with Fictional Medical Data [3.471944921180245]
非存在腺であるGlianorexに焦点をあてた架空の医療ベンチマークを開発した。このアプローチにより、LSMの知識をテストテイク能力から切り離すことができます。我々は、これらの質問をゼロショット設定で、様々なオープンソース、プロプライエタリ、ドメイン固有のLCMを評価した。
論文参考訳（メタデータ） (2024-06-04T15:08:56Z)
MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文参考訳（メタデータ） (2023-12-20T07:01:49Z)
PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain [24.411904114158673]
我々は、中国生物医学言語理解評価(CBlue)ベンチマークを大規模なプロンプトチューニングベンチマークであるPromptCBlueに再構築した。我々のベンチマークは、幅広いバイオメディカルタスクにおいて、中国のLCMのマルチタスク能力を評価するのに適したテストベッドであり、オンラインプラットフォームである。
論文参考訳（メタデータ） (2023-10-22T02:20:38Z)
Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。 LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文参考訳（メタデータ） (2023-09-05T13:39:38Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (2023-06-15T15:49:51Z)
Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。 CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。 LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文参考訳（メタデータ） (2023-06-05T16:48:41Z)
Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文参考訳（メタデータ） (2023-04-09T16:31:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。