論文の概要: Evaluating and Enhancing Large Language Models Performance in
Domain-specific Medicine: Osteoarthritis Management with DocOA
- arxiv url: http://arxiv.org/abs/2401.12998v1
- Date: Sat, 20 Jan 2024 03:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 16:44:10.227094
- Title: Evaluating and Enhancing Large Language Models Performance in
Domain-specific Medicine: Osteoarthritis Management with DocOA
- Title(参考訳): ドメイン特化医療における大規模言語モデルの評価と改善:DocOAを用いた関節症治療
- Authors: Xi Chen, MingKe You, Li Wang, WeiZhi Liu, Yu Fu, Jie Xu, Shaoting
Zhang, Gang Chen, Jian Li
- Abstract要約: 本研究は, 変形性膝関節症(OA)管理を事例として, 特定の領域における大言語モデル(LLM)の臨床能力の評価と向上に焦点を当てた。
ドメイン固有の知識から実世界の臨床シナリオにおける臨床応用まで,幅広い分野のLSMを評価するための,ドメイン固有のベンチマークフレームワークを開発した。
本研究は,GPT-3.5,GPT-4,特殊アシスタントDocOAの性能を客観的および人的評価を用いて比較した。
その結果, GPT-3.5 や GPT-4 のような一般 LLM は OA 管理の専門領域, 特にパーソナライズされた治療の分野では効果が低かった。
- 参考スコア(独自算出の注目度): 23.395699813006747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The efficacy of large language models (LLMs) in domain-specific medicine,
particularly for managing complex diseases such as osteoarthritis (OA), remains
largely unexplored. This study focused on evaluating and enhancing the clinical
capabilities of LLMs in specific domains, using osteoarthritis (OA) management
as a case study. A domain specific benchmark framework was developed, which
evaluate LLMs across a spectrum from domain-specific knowledge to clinical
applications in real-world clinical scenarios. DocOA, a specialized LLM
tailored for OA management that integrates retrieval-augmented generation (RAG)
and instruction prompts, was developed. The study compared the performance of
GPT-3.5, GPT-4, and a specialized assistant, DocOA, using objective and human
evaluations. Results showed that general LLMs like GPT-3.5 and GPT-4 were less
effective in the specialized domain of OA management, particularly in providing
personalized treatment recommendations. However, DocOA showed significant
improvements. This study introduces a novel benchmark framework which assesses
the domain-specific abilities of LLMs in multiple aspects, highlights the
limitations of generalized LLMs in clinical contexts, and demonstrates the
potential of tailored approaches for developing domain-specific medical LLMs.
- Abstract(参考訳): ドメイン特化医学、特に変形性関節症(oa)のような複雑な疾患の管理における大言語モデル(llm)の有効性はほとんど未解明である。
本研究は, 変形性膝関節症(OA)管理を事例として, 特定の領域におけるLSMの臨床能力の評価と向上に焦点を当てた。
ドメイン固有の知識から実世界の臨床シナリオにおける臨床応用まで,領域固有のベンチマークフレームワークを開発した。
検索拡張生成(RAG)と命令プロンプトを統合したOA管理に適した特殊なLLMであるDocOAを開発した。
GPT-3.5, GPT-4, 特殊アシスタントDocOAの性能を客観的および人的評価を用いて比較した。
その結果, GPT-3.5 や GPT-4 のような一般 LLM は OA 管理の専門領域, 特にパーソナライズされた治療勧告にはあまり効果が認められなかった。
しかしDocOAは大幅に改善された。
本研究は, LLMの領域固有の能力を多面的に評価し, 臨床領域における一般化LDMの限界を強調し, ドメイン固有の医療LSMを開発するための適切なアプローチの可能性を示す新しいベンチマークフレームワークを提案する。
関連論文リスト
- LLMs in Biomedicine: A study on clinical Named Entity Recognition [42.71263594812782]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な汎用性を示すが、生医学における課題に直面する。
本稿では,医療分野におけるLCMの活用について,その性能向上戦略を探求して検討する。
提案手法は, ゼロショットクリニカルNERにおけるLDMのF1スコアを高めることができる。
論文 参考訳(メタデータ) (2024-04-10T22:26:26Z) - CLUE: A Clinical Language Understanding Evaluation for LLMs [2.3814275542331385]
大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献する可能性を示している。
これらのモデルの評価は、主に非クリニカルなタスクに限られている。
本研究は,現実的な臨床業務におけるLLMの評価に適したベンチマークであるCLUEについて述べる。
論文 参考訳(メタデータ) (2024-04-05T12:51:37Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of
LLMs [51.17542331993448]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Evaluation of General Large Language Models in Contextually Assessing
Semantic Concepts Extracted from Adult Critical Care Electronic Health Record
Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。
GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文 参考訳(メタデータ) (2024-01-24T16:52:37Z) - InFoBench: Evaluating Instruction Following Ability in Large Language
Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文 参考訳(メタデータ) (2024-01-07T23:01:56Z) - Distilling Large Language Models for Matching Patients to Clinical
Trials [3.4068841624198942]
近年の大規模言語モデル(LLMs)の成功は、医療分野における彼らの採用の道を開いた。
本研究は,患者と臨床の整合性に対するプロプライエタリ (GPT-3.5, GPT-4) とオープンソース LLM (LLAMA 7B, 13B, 70B) の併用性について,最初の系統的検討を行った。
この制限された合成データセットを微調整したオープンソースのLLMは、プロプライエタリなデータセットと同等の性能を示した。
論文 参考訳(メタデータ) (2023-12-15T17:11:07Z) - LMM-Assisted Breast Cancer Treatment Target Segmentation with Consistency Embedding [49.40059830266193]
放射線腫瘍学の分野に適した多目的大規模マルチモーダルモデル(LMM)であるRO-LMMを提案する。
本モデルでは, 臨床ワークフローにおける一連のタスク, 臨床報告要約, 放射線治療計画提案, 計画指導対象ボリュームセグメンテーションを網羅する。
また, クリーン入力の処理能力を保ちながら, LMMの頑健さをノイズ入力に高める, CEFTune(Consistency Embedding Fine-Tuning)技術を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:49:06Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。