論文の概要: Evaluating and Enhancing Large Language Models Performance in
Domain-specific Medicine: Osteoarthritis Management with DocOA
- arxiv url: http://arxiv.org/abs/2401.12998v1
- Date: Sat, 20 Jan 2024 03:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 16:44:10.227094
- Title: Evaluating and Enhancing Large Language Models Performance in
Domain-specific Medicine: Osteoarthritis Management with DocOA
- Title(参考訳): ドメイン特化医療における大規模言語モデルの評価と改善:DocOAを用いた関節症治療
- Authors: Xi Chen, MingKe You, Li Wang, WeiZhi Liu, Yu Fu, Jie Xu, Shaoting
Zhang, Gang Chen, Jian Li
- Abstract要約: 本研究は, 変形性膝関節症(OA)管理を事例として, 特定の領域における大言語モデル(LLM)の臨床能力の評価と向上に焦点を当てた。
ドメイン固有の知識から実世界の臨床シナリオにおける臨床応用まで,幅広い分野のLSMを評価するための,ドメイン固有のベンチマークフレームワークを開発した。
本研究は,GPT-3.5,GPT-4,特殊アシスタントDocOAの性能を客観的および人的評価を用いて比較した。
その結果, GPT-3.5 や GPT-4 のような一般 LLM は OA 管理の専門領域, 特にパーソナライズされた治療の分野では効果が低かった。
- 参考スコア(独自算出の注目度): 23.395699813006747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The efficacy of large language models (LLMs) in domain-specific medicine,
particularly for managing complex diseases such as osteoarthritis (OA), remains
largely unexplored. This study focused on evaluating and enhancing the clinical
capabilities of LLMs in specific domains, using osteoarthritis (OA) management
as a case study. A domain specific benchmark framework was developed, which
evaluate LLMs across a spectrum from domain-specific knowledge to clinical
applications in real-world clinical scenarios. DocOA, a specialized LLM
tailored for OA management that integrates retrieval-augmented generation (RAG)
and instruction prompts, was developed. The study compared the performance of
GPT-3.5, GPT-4, and a specialized assistant, DocOA, using objective and human
evaluations. Results showed that general LLMs like GPT-3.5 and GPT-4 were less
effective in the specialized domain of OA management, particularly in providing
personalized treatment recommendations. However, DocOA showed significant
improvements. This study introduces a novel benchmark framework which assesses
the domain-specific abilities of LLMs in multiple aspects, highlights the
limitations of generalized LLMs in clinical contexts, and demonstrates the
potential of tailored approaches for developing domain-specific medical LLMs.
- Abstract(参考訳): ドメイン特化医学、特に変形性関節症(oa)のような複雑な疾患の管理における大言語モデル(llm)の有効性はほとんど未解明である。
本研究は, 変形性膝関節症(OA)管理を事例として, 特定の領域におけるLSMの臨床能力の評価と向上に焦点を当てた。
ドメイン固有の知識から実世界の臨床シナリオにおける臨床応用まで,領域固有のベンチマークフレームワークを開発した。
検索拡張生成(RAG)と命令プロンプトを統合したOA管理に適した特殊なLLMであるDocOAを開発した。
GPT-3.5, GPT-4, 特殊アシスタントDocOAの性能を客観的および人的評価を用いて比較した。
その結果, GPT-3.5 や GPT-4 のような一般 LLM は OA 管理の専門領域, 特にパーソナライズされた治療勧告にはあまり効果が認められなかった。
しかしDocOAは大幅に改善された。
本研究は, LLMの領域固有の能力を多面的に評価し, 臨床領域における一般化LDMの限界を強調し, ドメイン固有の医療LSMを開発するための適切なアプローチの可能性を示す新しいベンチマークフレームワークを提案する。
関連論文リスト
- Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Bailicai: A Domain-Optimized Retrieval-Augmented Generation Framework for Medical Applications [3.378267753752713]
Bailicaiは、検索拡張世代と医療領域向けに最適化された大きな言語モデルとの新たな統合である。
本研究では,医療領域に最適化された大規模言語モデルと検索強化世代を新たに統合したBailicaiフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-24T12:27:33Z) - CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making [16.310913127940857]
我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。
このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。
臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文 参考訳(メタデータ) (2024-06-14T11:10:17Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Evaluation of General Large Language Models in Contextually Assessing
Semantic Concepts Extracted from Adult Critical Care Electronic Health Record
Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。
GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文 参考訳(メタデータ) (2024-01-24T16:52:37Z) - Distilling Large Language Models for Matching Patients to Clinical
Trials [3.4068841624198942]
近年の大規模言語モデル(LLMs)の成功は、医療分野における彼らの採用の道を開いた。
本研究は,患者と臨床の整合性に対するプロプライエタリ (GPT-3.5, GPT-4) とオープンソース LLM (LLAMA 7B, 13B, 70B) の併用性について,最初の系統的検討を行った。
この制限された合成データセットを微調整したオープンソースのLLMは、プロプライエタリなデータセットと同等の性能を示した。
論文 参考訳(メタデータ) (2023-12-15T17:11:07Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。