論文の概要: A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry
- arxiv url: http://arxiv.org/abs/2404.15777v4
- Date: Wed, 29 May 2024 15:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 22:42:17.638506
- Title: A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry
- Title(参考訳): 医療産業における大規模言語モデル応用の評価に関する総合的研究
- Authors: Yining Huang, Keke Tang, Meilian Chen, Boyuan Wang,
- Abstract要約: 大規模言語モデル(LLM)は、言語理解と生成の高度な能力で様々な産業に影響を与えている。
この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説する。
本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。
- 参考スコア(独自算出の注目度): 2.1717945745027425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the inception of the Transformer architecture in 2017, Large Language Models (LLMs) such as GPT and BERT have evolved significantly, impacting various industries with their advanced capabilities in language understanding and generation. These models have shown potential to transform the medical field, highlighting the necessity for specialized evaluation frameworks to ensure their effective and ethical deployment. This comprehensive survey delineates the extensive application and requisite evaluation of LLMs within healthcare, emphasizing the critical need for empirical validation to fully exploit their capabilities in enhancing healthcare outcomes. Our survey is structured to provide an in-depth analysis of LLM applications across clinical settings, medical text data processing, research, education, and public health awareness. We begin by exploring the roles of LLMs in various medical applications, detailing their evaluation based on performance in tasks such as clinical diagnosis, medical text data processing, information retrieval, data analysis, and educational content generation. The subsequent sections offer a comprehensive discussion on the evaluation methods and metrics employed, including models, evaluators, and comparative experiments. We further examine the benchmarks and datasets utilized in these evaluations, providing a categorized description of benchmarks for tasks like question answering, summarization, information extraction, bioinformatics, information retrieval and general comprehensive benchmarks. This structure ensures a thorough understanding of how LLMs are assessed for their effectiveness, accuracy, usability, and ethical alignment in the medical domain. ...
- Abstract(参考訳): 2017年のTransformerアーキテクチャの開始以来、GPTやBERTのような大規模言語モデル(LLM)は大幅に進化し、言語理解と生成の高度な能力を持つ様々な産業に影響を与えた。
これらのモデルは、医療分野を変革する可能性を示し、その効果的かつ倫理的な展開を保証するための特別な評価フレームワークの必要性を強調している。
この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説し、医療の成果を高める上で、その能力を完全に活用するための実証的検証の重要性を強調した。
本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。
まず,臨床診断,医用テキストデータ処理,情報検索,データ分析,教育コンテンツ生成などのタスクにおける評価結果に基づいて,様々な医療応用におけるLCMの役割を探求することから始める。
その後のセクションでは、モデル、評価者、比較実験を含む、採用される評価方法とメトリクスについて包括的な議論がなされている。
さらに,これらの評価に用いたベンチマークとデータセットについて検討し,質問応答,要約,情報抽出,バイオインフォマティクス,情報検索,総合ベンチマークなどのタスクのベンチマークを分類した記述を提供する。
この構造は、医療領域におけるLSMの有効性、正確性、ユーザビリティ、倫理的整合性についてどのように評価されるか、徹底的に理解することを保証する。
はぁ...。
関連論文リスト
- Evaluating large language models in medical applications: a survey [1.5923327069574245]
大規模言語モデル(LLM)は、多くのドメインにまたがる変換可能性を持つ強力なツールとして登場した。
医学的文脈におけるLCMのパフォーマンスを評価することは、医療情報の複雑で批判的な性質から、ユニークな課題を提示する。
論文 参考訳(メタデータ) (2024-05-13T05:08:33Z) - CLUE: A Clinical Language Understanding Evaluation for LLMs [2.3814275542331385]
大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献することが期待されている。
この敏感なアプリケーション領域に対するモデルの適合性を評価することは、非常に重要です。
臨床作業におけるLLMの評価に適したベンチマークであるCLUE(Ceriical Language Understanding Evaluation)を提案する。
論文 参考訳(メタデータ) (2024-04-05T12:51:37Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Emulating Human Cognitive Processes for Expert-Level Medical
Question-Answering with Large Language Models [0.23463422965432823]
BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである
人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。
本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
論文 参考訳(メタデータ) (2023-10-17T13:39:26Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Large Language Models for Biomedical Knowledge Graph Construction:
Information extraction from EMR notes [0.0]
大規模言語モデル(LLM)に基づくエンドツーエンド機械学習ソリューションを提案する。
KG構築プロセスで使用される物質は、疾患、因子、治療、および疾患を経験中に患者と共存する症状である。
提案手法の応用は加齢に伴う黄斑変性に対して実証される。
論文 参考訳(メタデータ) (2023-01-29T15:52:33Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。