論文の概要: Synthetic Imitation Edit Feedback for Factual Alignment in Clinical
Summarization
- arxiv url: http://arxiv.org/abs/2310.20033v1
- Date: Mon, 30 Oct 2023 21:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 17:24:36.403508
- Title: Synthetic Imitation Edit Feedback for Factual Alignment in Clinical
Summarization
- Title(参考訳): 臨床要約におけるファクチュアルアライメントのための合成模倣編集フィードバック
- Authors: Prakamya Mishra, Zonghai Yao, Shuwei Chen, Beining Wang, Rohan Mittal,
Hong Yu
- Abstract要約: LLM(Large Language Models)は、重要な文脈情報をキャプチャする際、例外的な機能を示す。
LLMは、臨床領域で非常に有害な、事実的に幻覚的な要約を生成することがある。
高品質なフィードバックデータを生成するために,人間の専門家の代わりにChatGPTを用いたパイプラインを提案する。
- 参考スコア(独自算出の注目度): 7.765365251963273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) like the GPT and LLaMA families have
demonstrated exceptional capabilities in capturing and condensing critical
contextual information and achieving state-of-the-art performance in the
summarization task. However, community concerns about these models'
hallucination issues continue to rise. LLMs sometimes generate factually
hallucinated summaries, which can be extremely harmful in the clinical domain
NLP tasks (e.g., clinical note summarization), where factually incorrect
statements can lead to critically erroneous diagnoses. Fine-tuning LLMs using
human feedback has shown the promise of aligning LLMs to be factually
consistent during generation, but such training procedure requires high-quality
human-annotated data, which can be extremely expensive to get in the clinical
domain. In this work, we propose a new pipeline using ChatGPT instead of human
experts to generate high-quality feedback data for improving factual
consistency in the clinical note summarization task. We focus specifically on
edit feedback because recent work discusses the shortcomings of human alignment
via preference feedback in complex situations (such as clinical NLP tasks that
require extensive expert knowledge), as well as some advantages of collecting
edit feedback from domain experts. In addition, although GPT has reached the
expert level in many clinical NLP tasks (e.g., USMLE QA), there is not much
previous work discussing whether GPT can generate expert-level edit feedback
for LMs in the clinical note summarization task. We hope to fill this gap.
Finally, our evaluations demonstrate the potential use of GPT edits in human
alignment, especially from a factuality perspective.
- Abstract(参考訳): GPTやLLaMAファミリーのような大規模言語モデル(LLM)は、重要な文脈情報をキャプチャし、凝縮し、要約タスクで最先端のパフォーマンスを達成するという、例外的な能力を示している。
しかし、これらのモデルの幻覚に関するコミュニティの懸念は高まり続けている。
LLMは、実際に幻覚化された要約を生成することがあるが、これは臨床領域のNLPタスク(例えば、臨床メモの要約)において非常に有害である。
ヒトのフィードバックを用いた微調整LSMは、世代間でLLMを実際に整合させるという約束を示しているが、そのような訓練には高品質な人間注釈データが必要である。
本研究では, 臨床ノート要約タスクにおいて, 品質の高いフィードバックデータを生成するために, 人間の専門家の代わりにchatgptを用いた新しいパイプラインを提案する。
近年の研究では、複雑な状況(専門知識を必要とする臨床NLPタスクなど)における優先的なフィードバックによる人間のアライメントの欠点や、ドメインの専門家による編集フィードバックの収集の利点について論じている。
加えて、GPTは多くの臨床NLPタスク(例えばUSMLE QA)で専門家レベルに達したが、臨床ノート要約タスクにおいて、GPTが専門家レベルの編集フィードバックを生成できるかどうかを議論する以前の研究は少ない。
私たちはこのギャップを埋めたい。
最後に,人間のアライメントにおけるGPT編集の可能性,特に事実性の観点から評価した。
関連論文リスト
- Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation [19.721994833304517]
大言語モデル(LLM)は、臨床テキスト要約タスクの処理において有望な能力を示している。
患者と医師の対話から高品質な臨床ノートを作成するために,小規模なオープンソース LLM を効果的に訓練できることを実証した。
論文 参考訳(メタデータ) (2024-04-25T15:34:53Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - SYNFAC-EDIT: Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization [6.130435789368263]
大規模言語モデル(LLM)は、要約タスクにおいて重要な成果を示したが、事実的不正確さに苦慮している。
専門家がアノテートしたデータの高コスト化と可用性の限界に対処するため,本研究では革新的なパイプラインを導入する。
100B以上のGPTの変種を利用して、専門家レベルの編集フィードバックを提供する合成フィードバックエキスパートとして機能します。
論文 参考訳(メタデータ) (2024-02-21T16:33:22Z) - Context Matters: Data-Efficient Augmentation of Large Language Models
for Scientific Applications [15.893290942177112]
GPT-4のような大規模言語モデル(LLM)に固有の課題について検討する。
一貫性と意味論的に厳密な方法で誤った回答を提示するLLMの能力は、事実の不正確さの検出を複雑にする。
本研究の目的は,このような誤りの理解と軽減を図り,LCMの精度と信頼性の向上に寄与することである。
論文 参考訳(メタデータ) (2023-12-12T08:43:20Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。