論文の概要: Question-Answering Based Summarization of Electronic Health Records
using Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2401.01469v1
- Date: Wed, 3 Jan 2024 00:09:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 15:32:55.898027
- Title: Question-Answering Based Summarization of Electronic Health Records
using Retrieval Augmented Generation
- Title(参考訳): Retrieval Augmented Generation を用いた質問応答に基づく電子健康記録の要約
- Authors: Walid Saba, Suzanne Wendelken and James. Shanahan
- Abstract要約: 本稿では,セマンティック検索,検索拡張生成,質問応答を組み合わせることで,欠点を軽減できる手法を提案する。
我々のアプローチは非常に効率的で、訓練は最小限から不要であり、LLMの「幻覚」問題に苦しむことはない。
要約には繰り返しの内容はなく、特定の質問に対する多様な回答があるため、多様性を保証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Summarization of electronic health records (EHRs) can substantially minimize
'screen time' for both patients as well as medical personnel. In recent years
summarization of EHRs have employed machine learning pipelines using state of
the art neural models. However, these models have produced less than adequate
results that are attributed to the difficulty of obtaining sufficient annotated
data for training. Moreover, the requirement to consider the entire content of
an EHR in summarization has resulted in poor performance due to the fact that
attention mechanisms in modern large language models (LLMs) adds a quadratic
complexity in terms of the size of the input. We propose here a method that
mitigates these shortcomings by combining semantic search, retrieval augmented
generation (RAG) and question-answering using the latest LLMs. In our approach
summarization is the extraction of answers to specific questions that are
deemed important by subject-matter experts (SMEs). Our approach is quite
efficient; requires minimal to no training; does not suffer from the
'hallucination' problem of LLMs; and it ensures diversity, since the summary
will not have repeated content but diverse answers to specific questions.
- Abstract(参考訳): 電子健康記録(EHR)の要約は、患者と医療関係者の両方にとって「スクリーンタイム」を著しく最小化することができる。
近年、EHRの要約には、最先端のニューラルモデルを用いた機械学習パイプラインが採用されている。
しかし,これらのモデルでは十分なアノテートデータを得るのが難しいため,十分な結果が得られていない。
さらに,現代大言語モデル (LLM) における注意機構が入力の大きさの2次的複雑さを付加するという事実から,要約におけるEHRの内容全体を考慮しなければならないという要求は,性能の低下をもたらしている。
本稿では,最新のLLMを用いた意味探索,検索拡張生成(RAG),質問応答を組み合わせることで,これらの欠点を軽減する手法を提案する。
本手法では,主観的専門家(SME)が重要視する特定の質問に対する回答の抽出を行う。
我々のアプローチは非常に効率的であり、訓練は必要とせず、LLMの「幻覚」問題に苦しめられず、要約の内容が反復ではなく、特定の質問に対する多様な回答を持つため、多様性を保証する。
関連論文リスト
- Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - Graph-Based Retriever Captures the Long Tail of Biomedical Knowledge [2.2814097119704058]
大規模言語モデル(LLM)は、膨大な知識を要約して提示することで、情報の検索方法を変えつつある。
LLMはトレーニングセットから最も頻繁に見られる情報を強調し、まれな情報を無視する傾向があります。
本稿では,これらのクラスタをダウンサンプリングし,情報過負荷問題を緩和するために知識グラフを活用する新しい情報検索手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:31:11Z) - A Question Answering Based Pipeline for Comprehensive Chinese EHR
Information Extraction [3.411065529290054]
本稿では,質問応答モデルの伝達学習のための学習データを自動的に生成する手法を提案する。
我々のパイプラインは、抽出タイプによって生じる課題に対処するために、事前処理モジュールを組み込んでいます。
得られたQAモデルは,EHRにおける情報抽出のサブタスクに優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-17T02:55:35Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Prompting Large Language Models for Zero-Shot Clinical Prediction with
Structured Longitudinal Electronic Health Record Data [7.815738943706123]
大規模言語モデル(LLM)は、伝統的に自然言語処理に向いている。
本研究では, GPT-4 などの LLM の EHR データへの適応性について検討する。
EHRデータの長手性、スパース性、知識を注入した性質に対応するため、本研究は特定の特徴を考慮に入れている。
論文 参考訳(メタデータ) (2024-01-25T20:14:50Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Medical Question Summarization with Entity-driven Contrastive Learning [12.008269098530386]
本稿では,エンティティ駆動型コントラスト学習(ECL)を用いた新しい医療質問要約フレームワークを提案する。
ECLは、しばしば質問される質問(FAQ)に医療機関を採用し、硬い負のサンプルを生成する効果的なメカニズムを考案している。
iCliniqデータセットの33%の重複率など、いくつかのMQAデータセットが深刻なデータ漏洩問題に悩まされていることが分かりました。
論文 参考訳(メタデータ) (2023-04-15T00:19:03Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Handling Non-ignorably Missing Features in Electronic Health Records
Data Using Importance-Weighted Autoencoders [8.518166245293703]
本稿では,生体データのランダムなパターンではなく,欠落を柔軟に扱うために,重要度重み付きオートエンコーダ(iwaes)と呼ばれるvaesの新たな拡張を提案する。
提案手法は,組み込みニューラルネットワークを用いて欠落機構をモデル化し,欠落機構の正確な形式を事前に指定する必要をなくした。
論文 参考訳(メタデータ) (2021-01-18T22:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。