論文の概要: A Data-Centric Approach To Generate Faithful and High Quality Patient
Summaries with Large Language Models
- arxiv url: http://arxiv.org/abs/2402.15422v1
- Date: Fri, 23 Feb 2024 16:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:05:23.732955
- Title: A Data-Centric Approach To Generate Faithful and High Quality Patient
Summaries with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた忠実で高品質な患者要約作成のためのデータ中心アプローチ
- Authors: Stefan Hegselmann, Shannon Zejiang Shen, Florian Gierse, Monica
Agrawal, David Sontag, Xiaoyi Jiang
- Abstract要約: 医師のノートに基づいて患者要約を生成するための大規模言語モデルの可能性について検討する。
幻覚のための厳密なラベリングプロトコルを開発し、2人の医療専門家が100個の実世界のサマリーと100個のサマリーに注釈を付ける。
幻覚のないデータの微調整は,Llama 2の要約1回あたりの幻覚を2.60から1.55に効果的に低減し,関連する情報を保存する。
- 参考スコア(独自算出の注目度): 11.887458397617701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patients often face difficulties in understanding their hospitalizations,
while healthcare workers have limited resources to provide explanations. In
this work, we investigate the potential of large language models to generate
patient summaries based on doctors' notes and study the effect of training data
on the faithfulness and quality of the generated summaries. To this end, we
develop a rigorous labeling protocol for hallucinations, and have two medical
experts annotate 100 real-world summaries and 100 generated summaries. We show
that fine-tuning on hallucination-free data effectively reduces hallucinations
from 2.60 to 1.55 per summary for Llama 2, while preserving relevant
information. Although the effect is still present, it is much smaller for GPT-4
when prompted with five examples (0.70 to 0.40). We also conduct a qualitative
evaluation using hallucination-free and improved training data. GPT-4 shows
very good results even in the zero-shot setting. We find that common
quantitative metrics do not correlate well with faithfulness and quality.
Finally, we test GPT-4 for automatic hallucination detection, which yields
promising results.
- Abstract(参考訳): 患者は入院の理解が困難になることが多いが、医療従事者は説明を提供するリソースが限られている。
本研究では,医師のノートに基づいて患者要約を生成するための大規模言語モデルの可能性について検討し,トレーニングデータが生成した要約の忠実度と質に及ぼす影響について検討する。
この目的のために,幻覚のための厳密なラベリングプロトコルを開発し,医療専門家2名に対して,実世界のサマリー100点,生成サマリー100点を注釈する。
幻覚のないデータの微調整はLlama 2の要約1回あたりの幻覚を2.60から1.55に効果的に低減し,関連する情報を保存する。
この効果はまだ存在するが、5つの例(0.70から0.40)で誘導される場合、GPT-4の方がはるかに小さい。
また,幻覚のない学習データを用いて定性評価を行う。
GPT-4はゼロショット設定でも非常に良い結果を示す。
共通の定量的指標は、誠実さや品質とよく相関しないことがわかった。
最後に,自動幻覚検出のためのGPT-4を試験し,有望な結果を得た。
関連論文リスト
- The Effects of Hallucinations in Synthetic Training Data for Relation Extraction [11.046770690972723]
文書と文レベルにおける関係抽出の性能に及ぼす幻覚の影響について検討する。
幻覚は、テキストから関係を抽出するモデルの能力を著しく損なう。
本研究では,幻覚の検出手法を開発し,データ品質とモデル性能を向上させる。
論文 参考訳(メタデータ) (2024-10-10T22:00:16Z) - Generating Faithful and Complete Hospital-Course Summaries from the Electronic Health Record [3.6513957125331555]
ドキュメントの負担の増加による意図しない結果が、患者との対面時間を短縮した。
本稿では,患者の入院状況の要約を自動生成するためのソリューションを提案し,評価する。
論文 参考訳(メタデータ) (2024-04-01T15:47:21Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Factored Verification: Detecting and Reducing Hallucination in Summaries
of Academic Papers [1.7100359620532977]
抽象要約における幻覚の検出にはFacted Verificationを用いている。
複数の学術論文を要約する際に,言語モデルが幻覚する頻度を推定する。
私たちが発見する幻覚は、しばしば微妙なものであり、学術論文の合成にモデルを使う際には注意が必要である。
論文 参考訳(メタデータ) (2023-10-16T17:51:17Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Adding more data does not always help: A study in medical conversation
summarization with PEGASUS [5.276054618115727]
PEGを用いた転帰学習医療会話要約におけるデータセットサイズの影響について検討した。
また,分類環境での成功を受けて,低データ体制における様々な反復的なラベル付け戦略の評価を行った。
我々の研究は、医療会話要約への分類における低データ体制技術の導入の成功と課題に光を当てている。
論文 参考訳(メタデータ) (2021-11-15T07:27:35Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。