論文の概要: Evaluating large language models in medical applications: a survey
- arxiv url: http://arxiv.org/abs/2405.07468v1
- Date: Mon, 13 May 2024 05:08:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:54:35.733527
- Title: Evaluating large language models in medical applications: a survey
- Title(参考訳): 医療応用における大規模言語モデルの評価--アンケート調査から
- Authors: Xiaolan Chen, Jiayang Xiang, Shanfu Lu, Yexin Liu, Mingguang He, Danli Shi,
- Abstract要約: 大規模言語モデル(LLM)は、多くのドメインにまたがる変換可能性を持つ強力なツールとして登場した。
医学的文脈におけるLCMのパフォーマンスを評価することは、医療情報の複雑で批判的な性質から、ユニークな課題を提示する。
- 参考スコア(独自算出の注目度): 1.5923327069574245
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have emerged as powerful tools with transformative potential across numerous domains, including healthcare and medicine. In the medical domain, LLMs hold promise for tasks ranging from clinical decision support to patient education. However, evaluating the performance of LLMs in medical contexts presents unique challenges due to the complex and critical nature of medical information. This paper provides a comprehensive overview of the landscape of medical LLM evaluation, synthesizing insights from existing studies and highlighting evaluation data sources, task scenarios, and evaluation methods. Additionally, it identifies key challenges and opportunities in medical LLM evaluation, emphasizing the need for continued research and innovation to ensure the responsible integration of LLMs into clinical practice.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療や医療など、多くの領域にわたる変革の可能性を持つ強力なツールとして登場した。
医療分野では、LSMは臨床決定支援から患者教育まで幅広い課題を約束する。
しかし, 医学的文脈におけるLCMの性能評価は, 医療情報の複雑で批判的な性質から, 独特な課題を呈している。
本稿では,医学的LCM評価の展望を概観し,既存の研究から洞察を合成し,評価データソース,タスクシナリオ,評価方法の強調を行う。
さらに、LSMの医療的評価における重要な課題と機会を特定し、LSMの臨床的実践への責任ある統合を保証するための継続的な研究と革新の必要性を強調している。
関連論文リスト
- Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - CLUE: A Clinical Language Understanding Evaluation for LLMs [2.3814275542331385]
大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献することが期待されている。
この敏感なアプリケーション領域に対するモデルの適合性を評価することは、非常に重要です。
臨床作業におけるLLMの評価に適したベンチマークであるCLUE(Ceriical Language Understanding Evaluation)を提案する。
論文 参考訳(メタデータ) (2024-04-05T12:51:37Z) - Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator [21.60103376506254]
大きな言語モデル(LLM)は、人間の相互作用において顕著な熟練性を示している。
本稿では,SAPS(State-Aware patient Simulator)とAIE(Automated Interactive Evaluation)フレームワークを紹介する。
AIEとSAPSは、多ターン医師-患者シミュレーションを通じてLCMを評価するための動的で現実的なプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-03-13T13:04:58Z) - MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway
Encoding [48.348511646407026]
本稿では,知識向上と臨床パスウェイ符号化フレームワークを用いた医療対話について紹介する。
このフレームワークは、医療知識グラフを介して外部知識増強モジュールと、医療機関および医師の行動を介して、内部臨床経路をコードする。
論文 参考訳(メタデータ) (2024-03-11T10:57:45Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Large language models in healthcare and medical domain: A review [4.456243157307507]
大規模言語モデル(LLM)は、自由テキストクエリに対する熟練した応答を提供する。
このレビューでは、多様な医療応用の効率性と効果を増幅するLLMの可能性について考察する。
論文 参考訳(メタデータ) (2023-12-12T20:54:51Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。