論文の概要: SYNFAC-EDIT: Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization
- arxiv url: http://arxiv.org/abs/2402.13919v2
- Date: Wed, 17 Apr 2024 05:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 18:51:21.399016
- Title: SYNFAC-EDIT: Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization
- Title(参考訳): SynFAC-EDIT : 臨床要約におけるファクチュアルアライメントのための合成模倣編集フィードバック
- Authors: Prakamya Mishra, Zonghai Yao, Parth Vashisht, Feiyun Ouyang, Beining Wang, Vidhi Dhaval Mody, Hong Yu,
- Abstract要約: 大規模言語モデル(LLM)は、要約タスクにおいて重要な成果を示したが、事実的不正確さに苦慮している。
専門家がアノテートしたデータの高コスト化と可用性の限界に対処するため,本研究では革新的なパイプラインを導入する。
100B以上のGPTの変種を利用して、専門家レベルの編集フィードバックを提供する合成フィードバックエキスパートとして機能します。
- 参考スコア(独自算出の注目度): 6.130435789368263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) such as GPT & Llama have demonstrated significant achievements in summarization tasks but struggle with factual inaccuracies, a critical issue in clinical NLP applications where errors could lead to serious consequences. To counter the high costs and limited availability of expert-annotated data for factual alignment, this study introduces an innovative pipeline that utilizes >100B parameter GPT variants like GPT-3.5 & GPT-4 to act as synthetic experts to generate high-quality synthetics feedback aimed at enhancing factual consistency in clinical note summarization. Our research primarily focuses on edit feedback generated by these synthetic feedback experts without additional human annotations, mirroring and optimizing the practical scenario in which medical professionals refine AI system outputs. Although such 100B+ parameter GPT variants have proven to demonstrate expertise in various clinical NLP tasks, such as the Medical Licensing Examination, there is scant research on their capacity to act as synthetic feedback experts and deliver expert-level edit feedback for improving the generation quality of weaker (<10B parameter) LLMs like GPT-2 (1.5B) & Llama 2 (7B) in clinical domain. So in this work, we leverage 100B+ GPT variants to act as synthetic feedback experts offering expert-level edit feedback, that is used to reduce hallucinations and align weaker (<10B parameter) LLMs with medical facts using two distinct alignment algorithms (DPO & SALT), endeavoring to narrow the divide between AI-generated content and factual accuracy. This highlights the substantial potential of LLM-based synthetic edits in enhancing the alignment of clinical factuality.
- Abstract(参考訳): GPTやLlamaのような大規模言語モデル(LLM)は、要約タスクにおいて重要な成果を示したが、実際的不正確さに苦慮している。
本研究は,GPT-3.5やGPT-4のような100BパラメータのGPT-3.5やGPT-4といったGPTの変種を利用して,臨床ノート要約における事実整合性向上を目的とした高品質な合成フィードバックを生成する革新的なパイプラインを提案する。
我々の研究は、人間のアノテーションを付加せずにこれらの合成フィードバックの専門家が生成したフィードバックの編集、医療専門家がAIシステムの出力を洗練する実践シナリオのミラーリングと最適化に重点を置いている。
このような100B以上のパラメータ GPT 変種は、医学ライセンス試験のような様々な臨床NLPタスクにおける専門性を示すことが証明されているが、臨床領域におけるGPT-2 (1.5B) や Llama 2 (7B) のような、より弱い (10B のパラメータ) LLM の生成品質を改善するために、合成フィードバックの専門家として機能し、専門家レベルの編集フィードバックを提供する能力について精査されている。
そこで本研究では,100B以上のGPT変種を利用して,専門家レベルの編集フィードバックを提供する合成フィードバック専門家として機能し,幻覚の低減と,2つの異なるアライメントアルゴリズム(DPOとSALT)を用いた医学的事実との整合(10Bパラメータ)を図る。
このことは、臨床事実の整合性を高めるためのLLMベースの合成編集のかなりの可能性を強調している。
関連論文リスト
- Prompt-Efficient Fine-Tuning for GPT-like Deep Models to Reduce Hallucination and to Improve Reproducibility in Scientific Text Generation Using Stochastic Optimisation Techniques [0.0]
大規模言語モデル(LLM)は、複雑な科学的テキスト生成タスクにますます採用されている。
彼らはしばしば正確性、一貫性、幻覚制御の限界に悩まされる。
この論文はAを紹介します。
Fine-Tuning’アプローチは、幻覚を緩和し、アダプタを強化することを目的として、GPTライクなモデルに適したものだ。
論文 参考訳(メタデータ) (2024-11-10T12:28:09Z) - Improving Clinical Documentation with AI: A Comparative Study of Sporo AI Scribe and GPT-4o mini [0.0]
Sporo HealthのAI書式はOpenAIのGPT-4o Miniに対して評価された。
結果から,スポロAIはGPT-4o Miniを一貫して上回り,リコール率,精度,F1スコア全体を達成した。
論文 参考訳(メタデータ) (2024-10-20T22:48:40Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。
我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。
実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文 参考訳(メタデータ) (2024-01-29T21:24:43Z) - Distilling Large Language Models for Matching Patients to Clinical
Trials [3.4068841624198942]
近年の大規模言語モデル(LLMs)の成功は、医療分野における彼らの採用の道を開いた。
本研究は,患者と臨床の整合性に対するプロプライエタリ (GPT-3.5, GPT-4) とオープンソース LLM (LLAMA 7B, 13B, 70B) の併用性について,最初の系統的検討を行った。
この制限された合成データセットを微調整したオープンソースのLLMは、プロプライエタリなデータセットと同等の性能を示した。
論文 参考訳(メタデータ) (2023-12-15T17:11:07Z) - Synthetic Imitation Edit Feedback for Factual Alignment in Clinical
Summarization [7.765365251963273]
LLM(Large Language Models)は、重要な文脈情報をキャプチャする際、例外的な機能を示す。
LLMは、臨床領域で非常に有害な、事実的に幻覚的な要約を生成することがある。
高品質なフィードバックデータを生成するために,人間の専門家の代わりにChatGPTを用いたパイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-30T21:33:22Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。