論文の概要: Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries
- arxiv url: http://arxiv.org/abs/2403.01002v1
- Date: Fri, 1 Mar 2024 21:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:36:45.159921
- Title: Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries
- Title(参考訳): llmに基づく臨床テキスト要約の評価を改善する属性構造化
- Authors: Zelalem Gero, Chandan Singh, Yiqing Xie, Sheng Zhang, Tristan Naumann,
Jianfeng Gao, Hoifung Poon
- Abstract要約: 大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
- 参考スコア(独自算出の注目度): 62.32403630651586
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Summarizing clinical text is crucial in health decision-support and clinical
research. Large language models (LLMs) have shown the potential to generate
accurate clinical text summaries, but still struggle with issues regarding
grounding and evaluation, especially in safety-critical domains such as health.
Holistically evaluating text summaries is challenging because they may contain
unsubstantiated information. Here, we explore a general mitigation framework
using Attribute Structuring (AS), which structures the summary evaluation
process. It decomposes the evaluation process into a grounded procedure that
uses an LLM for relatively simple structuring and scoring tasks, rather than
the full task of holistic summary evaluation. Experiments show that AS
consistently improves the correspondence between human annotations and
automated metrics in clinical text summarization. Additionally, AS yields
interpretations in the form of a short text span corresponding to each output,
which enables efficient human auditing, paving the way towards trustworthy
evaluation of clinical information in resource-constrained scenarios. We
release our code, prompts, and an open-source benchmark at
https://github.com/microsoft/attribute-structuring.
- Abstract(参考訳): 臨床テキストの要約は、健康決定と臨床研究において重要である。
大規模言語モデル(llm)は、正確な臨床テキスト要約を生成する可能性を示したが、特に健康などの安全クリティカルな領域において、接地と評価に関する問題に苦慮している。
テキスト要約を断続的に評価するのは困難である。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
評価プロセスを,全体的要約評価の全タスクではなく,比較的単純な構成およびスコアリングタスクにLLMを使用する接地手順に分解する。
実験の結果,ASは臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善していることがわかった。
さらに、各アウトプットに対応する短いテキストスパンの形で解釈し、効率的な人間の監査を可能にし、リソース制約されたシナリオにおける臨床情報の信頼できる評価への道を開く。
コード、プロンプト、オープンソースベンチマークをhttps://github.com/microsoft/attribute-structuring.comでリリースしています。
関連論文リスト
- FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - Pyclipse, a library for deidentification of free-text clinical notes [0.40329768057075643]
同定アルゴリズムの比較を効率化するpyclipseフレームワークを提案する。
Pyclipseは、ローカル臨床データ上でオープンソースの識別アルゴリズムを実行するための単一のインターフェースとして機能する。
同じベンチマークデータセットで評価しても、アルゴリズムのパフォーマンスは、元の論文で報告された結果に一貫して劣っていることが分かりました。
論文 参考訳(メタデータ) (2023-11-05T19:56:58Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - A Meta-Evaluation of Faithfulness Metrics for Long-Form Hospital-Course
Summarization [2.8575516056239576]
病院入院の長期的臨床要約は、臨床医と患者の両方に役立つ可能性から、現実的な重要性を持っている。
本研究は,患者の短期病院講座のモデル作成要約に対して,人体アノテーションの微粒化に対する忠実度指標をベンチマークした。
論文 参考訳(メタデータ) (2023-03-07T14:57:06Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。