論文の概要: DocLens: Multi-aspect Fine-grained Evaluation for Medical Text
Generation
- arxiv url: http://arxiv.org/abs/2311.09581v2
- Date: Sun, 18 Feb 2024 20:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:44:52.132113
- Title: DocLens: Multi-aspect Fine-grained Evaluation for Medical Text
Generation
- Title(参考訳): DocLens:医療用テキスト生成のための多面的きめ細かい評価
- Authors: Yiqing Xie, Sheng Zhang, Hao Cheng, Pengfei Liu, Zelalem Gero, Cliff
Wong, Tristan Naumann, Hoifung Poon, Carolyn Rose
- Abstract要約: 本稿では, 医療用テキストの完全性, 簡潔性, 帰属性を評価するための指標セットを提案する。
メトリクスは、インストラクションフォロー(プロプライエタリとオープンソースの両方)や教師付きエンタテインメントモデルなど、さまざまなタイプの評価者によって計算できる。
総合的な人間の研究によると、DocLensは既存の指標よりも医療専門家の判断とかなり高い一致を示している。
- 参考スコア(独自算出の注目度): 38.998563718476525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical text generation aims to assist with administrative work and highlight
salient information to support decision-making. To reflect the specific
requirements of medical text, in this paper, we propose a set of metrics to
evaluate the completeness, conciseness, and attribution of the generated text
at a fine-grained level. The metrics can be computed by various types of
evaluators including instruction-following (both proprietary and open-source)
and supervised entailment models. We demonstrate the effectiveness of the
resulting framework, DocLens, with three evaluators on three tasks: clinical
note generation, radiology report summarization, and patient question
summarization. A comprehensive human study shows that DocLens exhibits
substantially higher agreement with the judgments of medical experts than
existing metrics. The results also highlight the need to improve open-source
evaluators and suggest potential directions.
- Abstract(参考訳): 医療用テキスト生成は、行政業務の支援と意思決定を支援するための健全な情報強調を目的としている。
医療用テキストの具体的な要件を反映するため,本論文では,生成したテキストの完全性,簡潔性,属性をきめ細かなレベルで評価するための指標セットを提案する。
メトリクスは、インストラクションフォロー(プロプライエタリとオープンソースの両方)や教師付きエンテーメントモデルなど、さまざまなタイプの評価者によって計算できる。
臨床ノート作成,放射線報告書要約,患者の質問要約の3つのタスクにおいて,doclensが3つの評価器で有効性を示す。
総合的な人間の研究によると、DocLensは既存の指標よりも医療専門家の判断とかなり高い一致を示している。
結果はまた、オープンソースの評価ツールの改善の必要性を強調し、潜在的な方向性を提案する。
関連論文リスト
- A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry [2.1717945745027425]
大規模言語モデル(LLM)は、言語理解と生成の高度な能力で様々な産業に影響を与えている。
この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説する。
本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。
論文 参考訳(メタデータ) (2024-04-24T09:55:24Z) - MedInsight: A Multi-Source Context Augmentation Framework for Generating
Patient-Centric Medical Responses using Large Language Models [3.0874677990361246]
大きな言語モデル(LLM)は、人間のような応答を生成する素晴らしい能力を示している。
我々は,LLM入力を関連背景情報で拡張する新しい検索フレームワークMedInsightを提案する。
MTSamplesデータセットの実験は、文脈的に適切な医療応答を生成するMedInsightの有効性を検証する。
論文 参考訳(メタデータ) (2024-03-13T15:20:30Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large
Language Models in Medicine [16.75133391080187]
総合的な文献レビューに基づいて評価基準のセットを設計する。
既存の候補基準は、医学と工学の専門家5名によるデルファイ法の使用に最適化されている。
3つのチャットボットが評価され、OpenAIのChatGPT、BaiduのERNIEボット、上海人工知能研究所のDr. PuJiang(Dr.PJ)が評価されている。
論文 参考訳(メタデータ) (2023-05-12T09:37:13Z) - Generating medically-accurate summaries of patient-provider dialogue: A
multi-stage approach using large language models [6.252236971703546]
効果的な要約は、対話におけるすべての医学的関連情報を一貫性と精度良く捉えることが要求される。
本稿では, 医療会話の要約問題に, タスクを, より小さな対話に基づくタスクに分解することで対処する。
論文 参考訳(メタデータ) (2023-05-10T08:48:53Z) - A Meta-Evaluation of Faithfulness Metrics for Long-Form Hospital-Course
Summarization [2.8575516056239576]
病院入院の長期的臨床要約は、臨床医と患者の両方に役立つ可能性から、現実的な重要性を持っている。
本研究は,患者の短期病院講座のモデル作成要約に対して,人体アノテーションの微粒化に対する忠実度指標をベンチマークした。
論文 参考訳(メタデータ) (2023-03-07T14:57:06Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。