Fugu-MT 論文翻訳(概要): A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with Large Language Models

論文の概要: A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with Large Language Models

arxiv url: http://arxiv.org/abs/2402.15422v1
Date: Fri, 23 Feb 2024 16:32:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 14:05:23.732955
Title: A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with Large Language Models
Title（参考訳）: 大規模言語モデルを用いた忠実で高品質な患者要約作成のためのデータ中心アプローチ
Authors: Stefan Hegselmann, Shannon Zejiang Shen, Florian Gierse, Monica Agrawal, David Sontag, Xiaoyi Jiang
Abstract要約: 医師のノートに基づいて患者要約を生成するための大規模言語モデルの可能性について検討する。幻覚のための厳密なラベリングプロトコルを開発し、2人の医療専門家が100個の実世界のサマリーと100個のサマリーに注釈を付ける。幻覚のないデータの微調整は,Llama 2の要約1回あたりの幻覚を2.60から1.55に効果的に低減し,関連する情報を保存する。
参考スコア（独自算出の注目度）: 11.887458397617701
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Patients often face difficulties in understanding their hospitalizations, while healthcare workers have limited resources to provide explanations. In this work, we investigate the potential of large language models to generate patient summaries based on doctors' notes and study the effect of training data on the faithfulness and quality of the generated summaries. To this end, we develop a rigorous labeling protocol for hallucinations, and have two medical experts annotate 100 real-world summaries and 100 generated summaries. We show that fine-tuning on hallucination-free data effectively reduces hallucinations from 2.60 to 1.55 per summary for Llama 2, while preserving relevant information. Although the effect is still present, it is much smaller for GPT-4 when prompted with five examples (0.70 to 0.40). We also conduct a qualitative evaluation using hallucination-free and improved training data. GPT-4 shows very good results even in the zero-shot setting. We find that common quantitative metrics do not correlate well with faithfulness and quality. Finally, we test GPT-4 for automatic hallucination detection, which yields promising results.
Abstract（参考訳）: 患者は入院の理解が困難になることが多いが、医療従事者は説明を提供するリソースが限られている。本研究では,医師のノートに基づいて患者要約を生成するための大規模言語モデルの可能性について検討し,トレーニングデータが生成した要約の忠実度と質に及ぼす影響について検討する。この目的のために,幻覚のための厳密なラベリングプロトコルを開発し,医療専門家2名に対して,実世界のサマリー100点,生成サマリー100点を注釈する。幻覚のないデータの微調整はLlama 2の要約1回あたりの幻覚を2.60から1.55に効果的に低減し,関連する情報を保存する。この効果はまだ存在するが、5つの例(0.70から0.40)で誘導される場合、GPT-4の方がはるかに小さい。また,幻覚のない学習データを用いて定性評価を行う。 GPT-4はゼロショット設定でも非常に良い結果を示す。共通の定量的指標は、誠実さや品質とよく相関しないことがわかった。最後に,自動幻覚検出のためのGPT-4を試験し,有望な結果を得た。

関連論文リスト

MedHal: An Evaluation Dataset for Medical Hallucination Detection [2.5782420501870296]
MedHalは、医療用テキストの幻覚をモデルが検出できるかどうかを評価するために設計された、新しい大規模データセットである。 MedHalは,(1)多様な医学的テキストソースとタスクを取り入れ,(2)医学的幻覚検出モデルの訓練に適した注釈付きサンプルを大量に提供し,(3)モデル学習を導くための事実的不整合の説明を含むギャップに対処する。
論文参考訳（メタデータ） (2025-04-11T14:55:15Z)
HausaNLP at SemEval-2025 Task 3: Towards a Fine-Grained Model-Aware Hallucination Detection [1.8230982862848586]
本研究の目的は, 幻覚の発生と重篤さに関する, 微妙な, モデルに配慮した理解を英語で提供することである。自然言語の推論と400サンプルの合成データセットを用いたModernBERTモデルの微調整を行った。その結果,モデルの信頼度と幻覚の有無との間には,正の相関が認められた。
論文参考訳（メタデータ） (2025-03-25T13:40:22Z)
KSHSeek: Data-Driven Approaches to Mitigating and Detecting Knowledge-Shortcut Hallucinations in Generative Models [17.435794516702256]
大規模言語モデル(LLM)は自然言語処理(NLP)の開発に大きく進歩している。モデル幻覚は、複雑な原因のため、自然言語生成(NLG)タスクにおいて依然として大きな課題である。この研究は、生成モデルにおける特定の幻覚の問題を緩和し、実世界のアプリケーションにおけるその堅牢性と信頼性を高めるための新しいパラダイムを導入する。
論文参考訳（メタデータ） (2025-03-25T09:18:27Z)
Medical Hallucinations in Foundation Models and Their Impact on Healthcare [53.97060824532454]
マルチモーダルデータの処理と生成が可能なファンデーションモデルは、医療におけるAIの役割を変革した。医療幻覚を、モデルが誤解を招く医療内容を生成する場合の例と定義する。以上の結果から,Chain-of-Thought (CoT) や Search Augmented Generation などの推論手法は,幻覚率を効果的に低減できることがわかった。これらの知見は、ロバストな検出と緩和戦略のための倫理的かつ実践的な衝動を浮き彫りにした。
論文参考訳（メタデータ） (2025-02-26T02:30:44Z)
MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。 GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文参考訳（メタデータ） (2025-02-20T06:33:23Z)
The Effects of Hallucinations in Synthetic Training Data for Relation Extraction [11.046770690972723]
文書と文レベルにおける関係抽出の性能に及ぼす幻覚の影響について検討する。幻覚は、テキストから関係を抽出するモデルの能力を著しく損なう。本研究では,幻覚の検出手法を開発し,データ品質とモデル性能を向上させる。
論文参考訳（メタデータ） (2024-10-10T22:00:16Z)
Generating Faithful and Complete Hospital-Course Summaries from the Electronic Health Record [3.6513957125331555]
ドキュメントの負担の増加による意図しない結果が、患者との対面時間を短縮した。本稿では,患者の入院状況の要約を自動生成するためのソリューションを提案し,評価する。
論文参考訳（メタデータ） (2024-04-01T15:47:21Z)
Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文参考訳（メタデータ） (2024-02-16T08:10:34Z)
Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文参考訳（メタデータ） (2024-01-12T19:02:48Z)
HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。 LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文参考訳（メタデータ） (2023-11-22T04:52:58Z)
Factored Verification: Detecting and Reducing Hallucination in Summaries of Academic Papers [1.7100359620532977]
抽象要約における幻覚の検出にはFacted Verificationを用いている。複数の学術論文を要約する際に,言語モデルが幻覚する頻度を推定する。私たちが発見する幻覚は、しばしば微妙なものであり、学術論文の合成にモデルを使う際には注意が必要である。
論文参考訳（メタデータ） (2023-10-16T17:51:17Z)
Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。本手法が患者の退院指示生成に有効であることを示す。
論文参考訳（メタデータ） (2022-10-23T16:34:39Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)
Adding more data does not always help: A study in medical conversation summarization with PEGASUS [5.276054618115727]
PEGを用いた転帰学習医療会話要約におけるデータセットサイズの影響について検討した。また,分類環境での成功を受けて,低データ体制における様々な反復的なラベル付け戦略の評価を行った。我々の研究は、医療会話要約への分類における低データ体制技術の導入の成功と課題に光を当てている。
論文参考訳（メタデータ） (2021-11-15T07:27:35Z)
Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文参考訳（メタデータ） (2020-11-05T00:18:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。