論文の概要: MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large
Language Models in Medicine
- arxiv url: http://arxiv.org/abs/2305.07340v1
- Date: Fri, 12 May 2023 09:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 13:39:07.728406
- Title: MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large
Language Models in Medicine
- Title(参考訳): MedGPTEval:医学における大規模言語モデルの応答評価のためのデータセットとベンチマーク
- Authors: Jie Xu, Lu Lu, Sen Yang, Bilin Liang, Xinwei Peng, Jiali Pang, Jinru
Ding, Xiaoming Shi, Lingrui Yang, Huan Song, Kang Li, Xin Sun, Shaoting Zhang
- Abstract要約: 総合的な文献レビューに基づいて評価基準のセットを設計する。
既存の候補基準は、医学と工学の専門家5名によるデルファイ法の使用に最適化されている。
3つのチャットボットが評価され、OpenAIのChatGPT、BaiduのERNIEボット、上海人工知能研究所のDr. PuJiang(Dr.PJ)が評価されている。
- 参考スコア(独自算出の注目度): 16.75133391080187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: METHODS: First, a set of evaluation criteria is designed based on a
comprehensive literature review. Second, existing candidate criteria are
optimized for using a Delphi method by five experts in medicine and
engineering. Third, three clinical experts design a set of medical datasets to
interact with LLMs. Finally, benchmarking experiments are conducted on the
datasets. The responses generated by chatbots based on LLMs are recorded for
blind evaluations by five licensed medical experts. RESULTS: The obtained
evaluation criteria cover medical professional capabilities, social
comprehensive capabilities, contextual capabilities, and computational
robustness, with sixteen detailed indicators. The medical datasets include
twenty-seven medical dialogues and seven case reports in Chinese. Three
chatbots are evaluated, ChatGPT by OpenAI, ERNIE Bot by Baidu Inc., and Doctor
PuJiang (Dr. PJ) by Shanghai Artificial Intelligence Laboratory. Experimental
results show that Dr. PJ outperforms ChatGPT and ERNIE Bot in both
multiple-turn medical dialogue and case report scenarios.
- Abstract(参考訳): Methods: まず、総合的な文献レビューに基づいて評価基準のセットを設計する。
第2に, 医学・工学の専門家5名によるdelphi法の使用について, 既存の候補基準を最適化した。
第3に、3人の臨床専門家がLSMと相互作用する医療データセットを設計する。
最後に、データセット上でベンチマーク実験を行う。
LLMに基づいてチャットボットが生成した応答は、5人の医療専門家による盲点評価のために記録される。
結果: 評価基準は, 医療専門家の能力, 社会的包括的能力, 文脈的能力, 計算的ロバスト性, 16項目の詳細な指標をカバーした。
医療データセットには、27の医療対話と7つのケースレポートが含まれている。
3つのチャットボット、openaiのchatgpt、baiduのernie bot、上海人工知能研究所のdr. pujiang(pj)が評価されている。
実験の結果,PJはマルチターン医療対話と事例報告のシナリオにおいて,ChatGPTとERNIEボットよりも優れていた。
関連論文リスト
- Large Language Models in Healthcare: A Comprehensive Benchmark [16.55419701519209]
医療における様々な大規模言語モデル(LLM)をベンチマークして、その強みと弱点を理解します。
私たちのベンチマークには、医療言語の生成、理解、推論にまたがる7つのタスクと13のデータセットが含まれています。
臨床ユーザからの信頼を得る上で重要な5つの指標について報告する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - DocLens: Multi-aspect Fine-grained Evaluation for Medical Text
Generation [38.998563718476525]
本稿では, 医療用テキストの完全性, 簡潔性, 帰属性を評価するための指標セットを提案する。
メトリクスは、インストラクションフォロー(プロプライエタリとオープンソースの両方)や教師付きエンタテインメントモデルなど、さまざまなタイプの評価者によって計算できる。
総合的な人間の研究によると、DocLensは既存の指標よりも医療専門家の判断とかなり高い一致を示している。
論文 参考訳(メタデータ) (2023-11-16T05:32:09Z) - MedAI Dialog Corpus (MEDIC): Zero-Shot Classification of Doctor and AI
Responses in Health Consultations [44.669251100016986]
ゼロショット分類では、トレーニング中に見えないクラスにテキストを分類することができる。
評価されたモデルは、BART、BERT、XLM、XLM-R、DistilBERTである。
ゼロショット言語モデルは一般的に言語をよく理解しているが、医療相談に対する医師とAIの反応を分類しようとする場合、制限がある。
論文 参考訳(メタデータ) (2023-10-19T05:48:28Z) - Integrating UMLS Knowledge into Large Language Models for Medical
Question Answering [18.06960842747575]
大規模言語モデル(LLM)は強力なテキスト生成能力を示し、医療分野に前例のない革新をもたらした。
我々は、医療コミュニティにより良いサービスを提供することを目的として、UMLS(Unified Medical Language System)に基づく拡張LLMフレームワークを開発する。
ベンチマークモデルとしてLLaMa2-13b-chatとChatGPT-3.5を採用し、LiveQAテストセットから104の質問に対してROUGEスコアとBERTScoreを用いて自動評価を行う。
論文 参考訳(メタデータ) (2023-10-04T12:50:26Z) - A Benchmark for Automatic Medical Consultation System: Frameworks, Tasks
and Datasets [70.32630628211803]
本稿では,医師と患者との対話理解とタスク指向インタラクションという,医療相談の自動化を支援する2つの枠組みを提案する。
マルチレベルな微粒なアノテーションを付加した新しい大規模医療対話データセットが導入された。
本稿では,各タスクに対するベンチマーク結果のセットを報告し,データセットのユーザビリティを示し,今後の研究のベースラインを設定する。
論文 参考訳(メタデータ) (2022-04-19T16:43:21Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。