Fugu-MT 論文翻訳(概要): MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large Language Models in Medicine

論文の概要: MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large Language Models in Medicine

arxiv url: http://arxiv.org/abs/2305.07340v1
Date: Fri, 12 May 2023 09:37:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-15 13:39:07.728406
Title: MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large Language Models in Medicine
Title（参考訳）: MedGPTEval:医学における大規模言語モデルの応答評価のためのデータセットとベンチマーク
Authors: Jie Xu, Lu Lu, Sen Yang, Bilin Liang, Xinwei Peng, Jiali Pang, Jinru Ding, Xiaoming Shi, Lingrui Yang, Huan Song, Kang Li, Xin Sun, Shaoting Zhang
Abstract要約: 総合的な文献レビューに基づいて評価基準のセットを設計する。既存の候補基準は、医学と工学の専門家5名によるデルファイ法の使用に最適化されている。 3つのチャットボットが評価され、OpenAIのChatGPT、BaiduのERNIEボット、上海人工知能研究所のDr. PuJiang(Dr.PJ)が評価されている。
参考スコア（独自算出の注目度）: 16.75133391080187
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: METHODS: First, a set of evaluation criteria is designed based on a comprehensive literature review. Second, existing candidate criteria are optimized for using a Delphi method by five experts in medicine and engineering. Third, three clinical experts design a set of medical datasets to interact with LLMs. Finally, benchmarking experiments are conducted on the datasets. The responses generated by chatbots based on LLMs are recorded for blind evaluations by five licensed medical experts. RESULTS: The obtained evaluation criteria cover medical professional capabilities, social comprehensive capabilities, contextual capabilities, and computational robustness, with sixteen detailed indicators. The medical datasets include twenty-seven medical dialogues and seven case reports in Chinese. Three chatbots are evaluated, ChatGPT by OpenAI, ERNIE Bot by Baidu Inc., and Doctor PuJiang (Dr. PJ) by Shanghai Artificial Intelligence Laboratory. Experimental results show that Dr. PJ outperforms ChatGPT and ERNIE Bot in both multiple-turn medical dialogue and case report scenarios.
Abstract（参考訳）: Methods: まず、総合的な文献レビューに基づいて評価基準のセットを設計する。第2に, 医学・工学の専門家5名によるdelphi法の使用について, 既存の候補基準を最適化した。第3に、3人の臨床専門家がLSMと相互作用する医療データセットを設計する。最後に、データセット上でベンチマーク実験を行う。 LLMに基づいてチャットボットが生成した応答は、5人の医療専門家による盲点評価のために記録される。結果: 評価基準は, 医療専門家の能力, 社会的包括的能力, 文脈的能力, 計算的ロバスト性, 16項目の詳細な指標をカバーした。医療データセットには、27の医療対話と7つのケースレポートが含まれている。 3つのチャットボット、openaiのchatgpt、baiduのernie bot、上海人工知能研究所のdr. pujiang(pj)が評価されている。実験の結果,PJはマルチターン医療対話と事例報告のシナリオにおいて,ChatGPTとERNIEボットよりも優れていた。

関連論文リスト

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [38.02853540388593]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。 LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文参考訳（メタデータ） (2025-06-04T15:43:14Z)
3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark [0.29987253996125257]
遠隔医療への応用としてLVLM (Large Vision-Language Models) が検討されているが, 多様な患者行動への関与能力はいまだ検討されていない。 LLM駆動型医療相談の評価を目的としたオープンソースの評価フレームワークである3MDBenchを紹介する。このベンチマークでは、34の一般的な診断にテキストと画像に基づく患者データを統合し、現実世界の遠隔医療の相互作用を反映している。
論文参考訳（メタデータ） (2025-03-26T07:32:05Z)
Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation [0.0]
大きな言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて印象的な機能を示している。本研究の目的は、LoRAによる微調整とRetrieval-Augmented Generationフレームワークという、2つの重要な技術の比較分析を行うことである。
論文参考訳（メタデータ） (2025-02-04T11:50:40Z)
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.83722922095852]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。 MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。ベンチマークで18の先行モデルを評価した。
論文参考訳（メタデータ） (2025-01-30T14:07:56Z)
RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。実験の結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-08-22T17:44:40Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As [1.0034156461900003]
大規模言語モデル(LLM)は言語ベースの臨床実践の多くの側面において有望な結果を示す。包括的医療知識グラフ(50,00以上の査読済み記事から得られたデータ)を用いて「EBMQA」を作成しました。私たちはこのデータセットを、最先端の2つのLLMであるChat-GPT4とClaude3-Opusについて24,500以上の質問を使ってベンチマークした。いずれのLLMも数値QAよりもセマンティックに優れており,Claude3は数値QAでGPT4を上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-06T08:41:46Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
DocLens: Multi-aspect Fine-grained Evaluation for Medical Text Generation [37.58514130165496]
本稿では, 医療用テキストの完全性, 簡潔性, 帰属性を評価するための指標セットを提案する。メトリクスは、インストラクションフォロー(プロプライエタリとオープンソースの両方)や教師付きエンタテインメントモデルなど、さまざまなタイプの評価者によって計算できる。総合的な人間の研究によると、DocLensは既存の指標よりも医療専門家の判断とかなり高い一致を示している。
論文参考訳（メタデータ） (2023-11-16T05:32:09Z)
Integrating UMLS Knowledge into Large Language Models for Medical Question Answering [18.06960842747575]
大規模言語モデル(LLM)は強力なテキスト生成能力を示し、医療分野に前例のない革新をもたらした。我々は、医療コミュニティにより良いサービスを提供することを目的として、UMLS(Unified Medical Language System)に基づく拡張LLMフレームワークを開発する。ベンチマークモデルとしてLLaMa2-13b-chatとChatGPT-3.5を採用し、LiveQAテストセットから104の質問に対してROUGEスコアとBERTScoreを用いて自動評価を行う。
論文参考訳（メタデータ） (2023-10-04T12:50:26Z)
Benchmarking Automated Clinical Language Simplification: Dataset, Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2020-12-04T06:09:02Z)
MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。 MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文参考訳（メタデータ） (2020-10-15T03:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。