Fugu-MT 論文翻訳(概要): Evaluating and Enhancing Large Language Models Performance in Domain-specific Medicine: Osteoarthritis Management with DocOA

論文の概要: Evaluating and Enhancing Large Language Models Performance in Domain-specific Medicine: Osteoarthritis Management with DocOA

arxiv url: http://arxiv.org/abs/2401.12998v1
Date: Sat, 20 Jan 2024 03:41:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 16:44:10.227094
Title: Evaluating and Enhancing Large Language Models Performance in Domain-specific Medicine: Osteoarthritis Management with DocOA
Title（参考訳）: ドメイン特化医療における大規模言語モデルの評価と改善:DocOAを用いた関節症治療
Authors: Xi Chen, MingKe You, Li Wang, WeiZhi Liu, Yu Fu, Jie Xu, Shaoting Zhang, Gang Chen, Jian Li
Abstract要約: 本研究は, 変形性膝関節症(OA)管理を事例として, 特定の領域における大言語モデル(LLM)の臨床能力の評価と向上に焦点を当てた。ドメイン固有の知識から実世界の臨床シナリオにおける臨床応用まで,幅広い分野のLSMを評価するための,ドメイン固有のベンチマークフレームワークを開発した。本研究は,GPT-3.5,GPT-4,特殊アシスタントDocOAの性能を客観的および人的評価を用いて比較した。その結果, GPT-3.5 や GPT-4 のような一般 LLM は OA 管理の専門領域, 特にパーソナライズされた治療の分野では効果が低かった。
参考スコア（独自算出の注目度）: 23.395699813006747
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The efficacy of large language models (LLMs) in domain-specific medicine, particularly for managing complex diseases such as osteoarthritis (OA), remains largely unexplored. This study focused on evaluating and enhancing the clinical capabilities of LLMs in specific domains, using osteoarthritis (OA) management as a case study. A domain specific benchmark framework was developed, which evaluate LLMs across a spectrum from domain-specific knowledge to clinical applications in real-world clinical scenarios. DocOA, a specialized LLM tailored for OA management that integrates retrieval-augmented generation (RAG) and instruction prompts, was developed. The study compared the performance of GPT-3.5, GPT-4, and a specialized assistant, DocOA, using objective and human evaluations. Results showed that general LLMs like GPT-3.5 and GPT-4 were less effective in the specialized domain of OA management, particularly in providing personalized treatment recommendations. However, DocOA showed significant improvements. This study introduces a novel benchmark framework which assesses the domain-specific abilities of LLMs in multiple aspects, highlights the limitations of generalized LLMs in clinical contexts, and demonstrates the potential of tailored approaches for developing domain-specific medical LLMs.
Abstract（参考訳）: ドメイン特化医学、特に変形性関節症(oa)のような複雑な疾患の管理における大言語モデル(llm)の有効性はほとんど未解明である。本研究は, 変形性膝関節症(OA)管理を事例として, 特定の領域におけるLSMの臨床能力の評価と向上に焦点を当てた。ドメイン固有の知識から実世界の臨床シナリオにおける臨床応用まで,領域固有のベンチマークフレームワークを開発した。検索拡張生成(RAG)と命令プロンプトを統合したOA管理に適した特殊なLLMであるDocOAを開発した。 GPT-3.5, GPT-4, 特殊アシスタントDocOAの性能を客観的および人的評価を用いて比較した。その結果, GPT-3.5 や GPT-4 のような一般 LLM は OA 管理の専門領域, 特にパーソナライズされた治療勧告にはあまり効果が認められなかった。しかしDocOAは大幅に改善された。本研究は, LLMの領域固有の能力を多面的に評価し, 臨床領域における一般化LDMの限界を強調し, ドメイン固有の医療LSMを開発するための適切なアプローチの可能性を示す新しいベンチマークフレームワークを提案する。

関連論文リスト

Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
OphthBench: A Comprehensive Benchmark for Evaluating Large Language Models in Chinese Ophthalmology [7.743511021846898]
大規模言語モデル(LLM)は、様々な医学的応用において大きな可能性を示してきた。我々は,中国の眼科領域におけるLCM性能を評価するためのベンチマークであるOphthBenchを紹介した。この枠組みは、LSMの能力の徹底的な評価を可能にし、中国の眼科におけるその実践的応用に関する洞察を提供する。
論文参考訳（メタデータ） (2025-02-03T11:04:51Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
Bailicai: A Domain-Optimized Retrieval-Augmented Generation Framework for Medical Applications [3.378267753752713]
Bailicaiは、検索拡張世代と医療領域向けに最適化された大きな言語モデルとの新たな統合である。本研究では,医療領域に最適化された大規模言語モデルと検索強化世代を新たに統合したBailicaiフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-24T12:27:33Z)
CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making [16.310913127940857]
我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文参考訳（メタデータ） (2024-06-14T11:10:17Z)
BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。 BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文参考訳（メタデータ） (2024-03-27T08:57:21Z)
Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。 Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。 GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文参考訳（メタデータ） (2024-01-24T16:52:37Z)
Distilling Large Language Models for Matching Patients to Clinical Trials [3.4068841624198942]
近年の大規模言語モデル(LLMs)の成功は、医療分野における彼らの採用の道を開いた。本研究は,患者と臨床の整合性に対するプロプライエタリ (GPT-3.5, GPT-4) とオープンソース LLM (LLAMA 7B, 13B, 70B) の併用性について,最初の系統的検討を行った。この制限された合成データセットを微調整したオープンソースのLLMは、プロプライエタリなデータセットと同等の性能を示した。
論文参考訳（メタデータ） (2023-12-15T17:11:07Z)
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文参考訳（メタデータ） (2023-05-30T03:00:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。