Fugu-MT 論文翻訳(概要): Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization

論文の概要: Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization

arxiv url: http://arxiv.org/abs/2310.20033v1
Date: Mon, 30 Oct 2023 21:33:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 17:24:36.403508
Title: Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization
Title（参考訳）: 臨床要約におけるファクチュアルアライメントのための合成模倣編集フィードバック
Authors: Prakamya Mishra, Zonghai Yao, Shuwei Chen, Beining Wang, Rohan Mittal, Hong Yu
Abstract要約: LLM(Large Language Models)は、重要な文脈情報をキャプチャする際、例外的な機能を示す。 LLMは、臨床領域で非常に有害な、事実的に幻覚的な要約を生成することがある。高品質なフィードバックデータを生成するために,人間の専門家の代わりにChatGPTを用いたパイプラインを提案する。
参考スコア（独自算出の注目度）: 7.765365251963273
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) like the GPT and LLaMA families have demonstrated exceptional capabilities in capturing and condensing critical contextual information and achieving state-of-the-art performance in the summarization task. However, community concerns about these models' hallucination issues continue to rise. LLMs sometimes generate factually hallucinated summaries, which can be extremely harmful in the clinical domain NLP tasks (e.g., clinical note summarization), where factually incorrect statements can lead to critically erroneous diagnoses. Fine-tuning LLMs using human feedback has shown the promise of aligning LLMs to be factually consistent during generation, but such training procedure requires high-quality human-annotated data, which can be extremely expensive to get in the clinical domain. In this work, we propose a new pipeline using ChatGPT instead of human experts to generate high-quality feedback data for improving factual consistency in the clinical note summarization task. We focus specifically on edit feedback because recent work discusses the shortcomings of human alignment via preference feedback in complex situations (such as clinical NLP tasks that require extensive expert knowledge), as well as some advantages of collecting edit feedback from domain experts. In addition, although GPT has reached the expert level in many clinical NLP tasks (e.g., USMLE QA), there is not much previous work discussing whether GPT can generate expert-level edit feedback for LMs in the clinical note summarization task. We hope to fill this gap. Finally, our evaluations demonstrate the potential use of GPT edits in human alignment, especially from a factuality perspective.
Abstract（参考訳）: GPTやLLaMAファミリーのような大規模言語モデル(LLM)は、重要な文脈情報をキャプチャし、凝縮し、要約タスクで最先端のパフォーマンスを達成するという、例外的な能力を示している。しかし、これらのモデルの幻覚に関するコミュニティの懸念は高まり続けている。 LLMは、実際に幻覚化された要約を生成することがあるが、これは臨床領域のNLPタスク(例えば、臨床メモの要約)において非常に有害である。ヒトのフィードバックを用いた微調整LSMは、世代間でLLMを実際に整合させるという約束を示しているが、そのような訓練には高品質な人間注釈データが必要である。本研究では, 臨床ノート要約タスクにおいて, 品質の高いフィードバックデータを生成するために, 人間の専門家の代わりにchatgptを用いた新しいパイプラインを提案する。近年の研究では、複雑な状況(専門知識を必要とする臨床NLPタスクなど)における優先的なフィードバックによる人間のアライメントの欠点や、ドメインの専門家による編集フィードバックの収集の利点について論じている。加えて、GPTは多くの臨床NLPタスク(例えばUSMLE QA)で専門家レベルに達したが、臨床ノート要約タスクにおいて、GPTが専門家レベルの編集フィードバックを生成できるかどうかを議論する以前の研究は少ない。私たちはこのギャップを埋めたい。最後に,人間のアライメントにおけるGPT編集の可能性,特に事実性の観点から評価した。

関連論文リスト

Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文参考訳（メタデータ） (2024-10-07T02:30:18Z)
PALLM: Evaluating and Enhancing PALLiative Care Conversations with Large Language Models [10.258261180305439]
大規模言語モデル(LLM)は、複雑なコミュニケーションメトリクスを評価するための新しいアプローチを提供する。 LLMは受動的センシングシステムとジャスト・イン・タイム・イン・タイム・イン・イン・介入システムとの統合を通じて、分野を前進させる可能性を提供する。本研究は, 言語, 文脈内学習, 推論能力を活用した緩和ケアコミュニケーションの質評価手法としてLLMについて検討する。
論文参考訳（メタデータ） (2024-09-23T16:39:12Z)
Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。 VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-29T23:19:28Z)
Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation [19.08691249610632]
本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。我々のプロセスには、AIと人間のフィードバックの両方から、継続的な事前トレーニング、教師付き微調整、強化学習が組み込まれています。得られたLLaMA-Clinicは,医師が作成したものと同等の精度で臨床記録を作成できる。
論文参考訳（メタデータ） (2024-04-25T15:34:53Z)
Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。 ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文参考訳（メタデータ） (2024-03-01T21:59:03Z)
SYNFAC-EDIT: Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization [6.130435789368263]
大規模言語モデル(LLM)は、要約タスクにおいて重要な成果を示したが、事実的不正確さに苦慮している。専門家がアノテートしたデータの高コスト化と可用性の限界に対処するため,本研究では革新的なパイプラインを導入する。 100B以上のGPTの変種を利用して、専門家レベルの編集フィードバックを提供する合成フィードバックエキスパートとして機能します。
論文参考訳（メタデータ） (2024-02-21T16:33:22Z)
Context Matters: Data-Efficient Augmentation of Large Language Models for Scientific Applications [15.893290942177112]
GPT-4のような大規模言語モデル(LLM)に固有の課題について検討する。一貫性と意味論的に厳密な方法で誤った回答を提示するLLMの能力は、事実の不正確さの検出を複雑にする。本研究の目的は,このような誤りの理解と軽減を図り,LCMの精度と信頼性の向上に寄与することである。
論文参考訳（メタデータ） (2023-12-12T08:43:20Z)
Towards Mitigating Hallucination in Large Language Models via Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文参考訳（メタデータ） (2023-10-10T03:05:44Z)
Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。 10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文参考訳（メタデータ） (2023-09-14T05:15:01Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。提案手法により,下流タスクの性能が大幅に向上した。
論文参考訳（メタデータ） (2023-03-08T03:56:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。