論文の概要: Enhancing Medical Text Evaluation with GPT-4
- arxiv url: http://arxiv.org/abs/2311.09581v1
- Date: Thu, 16 Nov 2023 05:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:25:55.208341
- Title: Enhancing Medical Text Evaluation with GPT-4
- Title(参考訳): GPT-4による医用テキスト評価の強化
- Authors: Yiqing Xie, Sheng Zhang, Hao Cheng, Zelalem Gero, Cliff Wong, Tristan
Naumann, Hoifung Poon
- Abstract要約: 本稿では,医療用テキスト生成のための実感中心評価の側面と,それに対応するGPT-4ベースのメトリクスの設計を提案する。
総合的な人的評価では、提案したGPT-4ベースの指標が、既存の評価指標よりも人的判断とかなり高い一致を示したことが確認される。
- 参考スコア(独自算出の注目度): 24.411622848220162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the evaluation of medical text generation, it is essential to scrutinize
each piece of information and ensure the utmost accuracy of the evaluation.
Existing evaluation metrics either focus on coarse-level evaluation that
assigns one score for the whole generated output or rely on evaluation models
trained on general domain, resulting in inaccuracies when adapted to the
medical domain. To address these issues, we propose a set of factuality-centric
evaluation aspects and design corresponding GPT-4-based metrics for medical
text generation. We systematically compare these metrics with existing ones on
clinical note generation and medical report summarization tasks, revealing low
inter-metric correlation. A comprehensive human evaluation confirms that the
proposed GPT-4-based metrics exhibit substantially higher agreement with human
judgments than existing evaluation metrics. Our study contributes to the
understanding of medical text generation evaluation and offers a more reliable
alternative to existing metrics.
- Abstract(参考訳): 医用テキスト生成の評価においては,各情報を精査し,評価の正確性を確保することが不可欠である。
既存の評価指標は、出力全体に対して1点のスコアを割り当てる粗いレベル評価にフォーカスするか、一般的な領域で訓練された評価モデルに依存するかのいずれかであり、医療領域に適応する際の不正確な結果となる。
そこで本研究では, 医用テキスト生成のためのファクトリティー中心の評価手法と対応するgpt-4ベースのメトリクスの設計を提案する。
臨床ノート作成や医療報告要約タスクにおいて,これらの指標を既存の指標と体系的に比較し,低相関性を示した。
総合的な人的評価では、提案したGPT-4ベースの指標は、既存の評価指標よりも人的判断とかなり高い一致を示した。
本研究は,医療用テキスト生成評価の理解に寄与し,既存の指標よりも信頼性の高い代替手段を提供する。
関連論文リスト
- A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry [2.1717945745027425]
大規模言語モデル(LLM)は、言語理解と生成の高度な能力で様々な産業に影響を与えている。
この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説する。
本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。
論文 参考訳(メタデータ) (2024-04-24T09:55:24Z) - MedInsight: A Multi-Source Context Augmentation Framework for Generating
Patient-Centric Medical Responses using Large Language Models [3.0874677990361246]
大きな言語モデル(LLM)は、人間のような応答を生成する素晴らしい能力を示している。
我々は,LLM入力を関連背景情報で拡張する新しい検索フレームワークMedInsightを提案する。
MTSamplesデータセットの実験は、文脈的に適切な医療応答を生成するMedInsightの有効性を検証する。
論文 参考訳(メタデータ) (2024-03-13T15:20:30Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large
Language Models in Medicine [16.75133391080187]
総合的な文献レビューに基づいて評価基準のセットを設計する。
既存の候補基準は、医学と工学の専門家5名によるデルファイ法の使用に最適化されている。
3つのチャットボットが評価され、OpenAIのChatGPT、BaiduのERNIEボット、上海人工知能研究所のDr. PuJiang(Dr.PJ)が評価されている。
論文 参考訳(メタデータ) (2023-05-12T09:37:13Z) - Generating medically-accurate summaries of patient-provider dialogue: A
multi-stage approach using large language models [6.252236971703546]
効果的な要約は、対話におけるすべての医学的関連情報を一貫性と精度良く捉えることが要求される。
本稿では, 医療会話の要約問題に, タスクを, より小さな対話に基づくタスクに分解することで対処する。
論文 参考訳(メタデータ) (2023-05-10T08:48:53Z) - A Meta-Evaluation of Faithfulness Metrics for Long-Form Hospital-Course
Summarization [2.8575516056239576]
病院入院の長期的臨床要約は、臨床医と患者の両方に役立つ可能性から、現実的な重要性を持っている。
本研究は,患者の短期病院講座のモデル作成要約に対して,人体アノテーションの微粒化に対する忠実度指標をベンチマークした。
論文 参考訳(メタデータ) (2023-03-07T14:57:06Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。