論文の概要: A UMLS-Augmented Framework for Improving Factuality in Large Language
Models within Healthcare
- arxiv url: http://arxiv.org/abs/2310.02778v1
- Date: Wed, 4 Oct 2023 12:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 15:09:14.389782
- Title: A UMLS-Augmented Framework for Improving Factuality in Large Language
Models within Healthcare
- Title(参考訳): 医療における大規模言語モデルの現実性向上のためのUMLS強化フレームワーク
- Authors: Rui Yang, Edison Marrese-Taylor, Yuhe Ke, Lechao Cheng, Qingyu Chen,
Irene Li
- Abstract要約: 大規模言語モデル(LLM)は強力なテキスト生成能力を示し、医療分野に前例のない革新をもたらした。
我々は、医療コミュニティにより良いサービスを提供することを目的として、UMLS(Unified Medical Language System)に基づく拡張LLMフレームワークを開発する。
ベンチマークモデルとしてLLaMa2-13b-chatとChatGPT-3.5を採用し、LiveQAテストセットから104の質問に対してROUGEスコアとBERTScoreを用いて自動評価を行う。
- 参考スコア(独自算出の注目度): 18.06960842747575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated powerful text generation
capabilities, bringing unprecedented innovation to the healthcare field. While
LLMs hold immense promise for applications in healthcare, applying them to real
clinical scenarios presents significant challenges, as these models may
generate content that deviates from established medical facts and even exhibit
potential biases. In our research, we develop an augmented LLM framework based
on the Unified Medical Language System (UMLS), aiming to better serve the
healthcare community. We employ LLaMa2-13b-chat and ChatGPT-3.5 as our
benchmark models, and conduct automatic evaluations using the ROUGE Score and
BERTScore on 104 questions from the LiveQA test set. Additionally, we establish
criteria for physician-evaluation based on four dimensions: Factuality,
Completeness, Readability and Relevancy. ChatGPT-3.5 is used for physician
evaluation with 20 questions on the LiveQA test set. Multiple resident
physicians conducted blind reviews to evaluate the generated content, and the
results indicate that this framework effectively enhances the factuality,
completeness, and relevance of generated content. Our research demonstrates the
effectiveness of using UMLS-augmented LLMs and highlights the potential
application value of LLMs in in medical question-answering.
- Abstract(参考訳): 大規模言語モデル(llm)は強力なテキスト生成能力を示し、医療分野に前例のないイノベーションをもたらした。
LLMは医療分野での応用には大きな可能性を秘めているが、実際の臨床シナリオに適用すると、これらのモデルが確立した医療事実から逸脱したコンテンツを生成し、潜在的なバイアスを示す可能性があるため、大きな課題が示される。
本研究では,umls(unified medical language system)に基づく拡張llmフレームワークを開発し,医療コミュニティへのサービス向上を目指す。
ベンチマークモデルとしてLLaMa2-13b-chatとChatGPT-3.5を採用し、LiveQAテストセットから104の質問に対してROUGEスコアとBERTScoreを用いて自動評価を行う。
さらに,医師評価の基準を,事実性,完全性,可読性,関連度という4次元に基づいて定めている。
ChatGPT-3.5は、LiveQAテストセットに関する20の質問で医師の評価に使用される。
複数の医師がブラインドレビューを行い、生成内容の評価を行い、この枠組みが生成内容の事実性、完全性、および関連性を効果的に向上することを示した。
本研究は, UMLS 拡張 LLM の有効性を実証し, 医療質問応答における LLM の適用価値を明らかにする。
関連論文リスト
- A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry [0.8704964543257245]
GPTやBERTのような大規模言語モデル(LLM)は、言語理解と生成の高度な能力で様々な産業に影響を与えている。
この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説する。
本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。
論文 参考訳(メタデータ) (2024-04-24T09:55:24Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Large language models in healthcare and medical domain: A review [5.264460964718939]
大規模言語モデル(LLM)は、自由テキストクエリに対する熟練した応答を提供する。
このレビューでは、多様な医療応用の効率性と効果を増幅するLLMの可能性について考察する。
論文 参考訳(メタデータ) (2023-12-12T20:54:51Z) - A Survey of Large Language Models in Medicine: Progress, Application,
and Challenge [86.4234483148876]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Augmenting Black-box LLMs with Medical Textbooks for Clinical Question
Answering [54.13933019557655]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。