論文の概要: A Data-Centric Approach To Generate Faithful and High Quality Patient
Summaries with Large Language Models
- arxiv url: http://arxiv.org/abs/2402.15422v1
- Date: Fri, 23 Feb 2024 16:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:05:23.732955
- Title: A Data-Centric Approach To Generate Faithful and High Quality Patient
Summaries with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた忠実で高品質な患者要約作成のためのデータ中心アプローチ
- Authors: Stefan Hegselmann, Shannon Zejiang Shen, Florian Gierse, Monica
Agrawal, David Sontag, Xiaoyi Jiang
- Abstract要約: 医師のノートに基づいて患者要約を生成するための大規模言語モデルの可能性について検討する。
幻覚のための厳密なラベリングプロトコルを開発し、2人の医療専門家が100個の実世界のサマリーと100個のサマリーに注釈を付ける。
幻覚のないデータの微調整は,Llama 2の要約1回あたりの幻覚を2.60から1.55に効果的に低減し,関連する情報を保存する。
- 参考スコア(独自算出の注目度): 11.887458397617701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patients often face difficulties in understanding their hospitalizations,
while healthcare workers have limited resources to provide explanations. In
this work, we investigate the potential of large language models to generate
patient summaries based on doctors' notes and study the effect of training data
on the faithfulness and quality of the generated summaries. To this end, we
develop a rigorous labeling protocol for hallucinations, and have two medical
experts annotate 100 real-world summaries and 100 generated summaries. We show
that fine-tuning on hallucination-free data effectively reduces hallucinations
from 2.60 to 1.55 per summary for Llama 2, while preserving relevant
information. Although the effect is still present, it is much smaller for GPT-4
when prompted with five examples (0.70 to 0.40). We also conduct a qualitative
evaluation using hallucination-free and improved training data. GPT-4 shows
very good results even in the zero-shot setting. We find that common
quantitative metrics do not correlate well with faithfulness and quality.
Finally, we test GPT-4 for automatic hallucination detection, which yields
promising results.
- Abstract(参考訳): 患者は入院の理解が困難になることが多いが、医療従事者は説明を提供するリソースが限られている。
本研究では,医師のノートに基づいて患者要約を生成するための大規模言語モデルの可能性について検討し,トレーニングデータが生成した要約の忠実度と質に及ぼす影響について検討する。
この目的のために,幻覚のための厳密なラベリングプロトコルを開発し,医療専門家2名に対して,実世界のサマリー100点,生成サマリー100点を注釈する。
幻覚のないデータの微調整はLlama 2の要約1回あたりの幻覚を2.60から1.55に効果的に低減し,関連する情報を保存する。
この効果はまだ存在するが、5つの例(0.70から0.40)で誘導される場合、GPT-4の方がはるかに小さい。
また,幻覚のない学習データを用いて定性評価を行う。
GPT-4はゼロショット設定でも非常に良い結果を示す。
共通の定量的指標は、誠実さや品質とよく相関しないことがわかった。
最後に,自動幻覚検出のためのGPT-4を試験し,有望な結果を得た。
関連論文リスト
- MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - QuaLLM-Health: An Adaptation of an LLM-Based Framework for Quantitative Data Extraction from Online Health Discussions [30.089810404792]
本報告では,QuaLLMからQuaLLM-Healthに適応したフレームワークを用いて,非構造化テキストから臨床的に関連のある定量的データを抽出する。
2024年7月にReddit APIを使って5つのGLP-1関連コミュニティから410万の投稿とコメントを収集しました。
フレームワークを完全なデータセットに適用することで、下流分析に必要な変数の効率的な抽出が可能になった。
論文 参考訳(メタデータ) (2024-11-27T00:52:21Z) - The Effects of Hallucinations in Synthetic Training Data for Relation Extraction [11.046770690972723]
文書と文レベルにおける関係抽出の性能に及ぼす幻覚の影響について検討する。
幻覚は、テキストから関係を抽出するモデルの能力を著しく損なう。
本研究では,幻覚の検出手法を開発し,データ品質とモデル性能を向上させる。
論文 参考訳(メタデータ) (2024-10-10T22:00:16Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Factored Verification: Detecting and Reducing Hallucination in Summaries
of Academic Papers [1.7100359620532977]
抽象要約における幻覚の検出にはFacted Verificationを用いている。
複数の学術論文を要約する際に,言語モデルが幻覚する頻度を推定する。
私たちが発見する幻覚は、しばしば微妙なものであり、学術論文の合成にモデルを使う際には注意が必要である。
論文 参考訳(メタデータ) (2023-10-16T17:51:17Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Adding more data does not always help: A study in medical conversation
summarization with PEGASUS [5.276054618115727]
PEGを用いた転帰学習医療会話要約におけるデータセットサイズの影響について検討した。
また,分類環境での成功を受けて,低データ体制における様々な反復的なラベル付け戦略の評価を行った。
我々の研究は、医療会話要約への分類における低データ体制技術の導入の成功と課題に光を当てている。
論文 参考訳(メタデータ) (2021-11-15T07:27:35Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。