論文の概要: Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges
- arxiv url: http://arxiv.org/abs/2309.04550v1
- Date: Fri, 8 Sep 2023 18:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 17:49:10.284091
- Title: Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges
- Title(参考訳): LLMによるEHRからの証拠の回収:可能性と課題
- Authors: Hiba Ahsan, Denis Jered McInerney, Jisoo Kim, Christopher Potter,
Geoffrey Young, Silvio Amir, Byron C. Wallace
- Abstract要約: この目的のために LLM (Flan-T5 XXL) を提案し評価する。
この LLM ベースのアプローチは、標準情報検索ベースラインに一貫して好まれる出力を提供する。
しかし、出力におけるモデル信頼度は、LCMが幻覚的であることを示す可能性があり、この問題に対処する手段を提供する可能性がある。
- 参考スコア(独自算出の注目度): 19.494006980465404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unstructured Electronic Health Record (EHR) data often contains critical
information complementary to imaging data that would inform radiologists'
diagnoses. However, time constraints and the large volume of notes frequently
associated with individual patients renders manual perusal of such data to
identify relevant evidence infeasible in practice. Modern Large Language Models
(LLMs) provide a flexible means of interacting with unstructured EHR data, and
may provide a mechanism to efficiently retrieve and summarize unstructured
evidence relevant to a given query. In this work, we propose and evaluate an
LLM (Flan-T5 XXL) for this purpose. Specifically, in a zero-shot setting we
task the LLM to infer whether a patient has or is at risk of a particular
condition; if so, we prompt the model to summarize the supporting evidence.
Enlisting radiologists for manual evaluation, we find that this LLM-based
approach provides outputs consistently preferred to a standard information
retrieval baseline, but we also highlight the key outstanding challenge: LLMs
are prone to hallucinating evidence. However, we provide results indicating
that model confidence in outputs might indicate when LLMs are hallucinating,
potentially providing a means to address this.
- Abstract(参考訳): 非構造化電子健康記録(EHR)データはしばしば、放射線学者の診断を知らせる画像データに補完する重要な情報を含んでいる。
しかし、個々の患者に頻繁に関連する時間制約や大量のメモは、そのようなデータを手動で読み取って、実際は不可能な証拠を特定する。
現代の大規模言語モデル(llms)は、非構造化ehlデータと対話するための柔軟な手段を提供し、与えられたクエリに関連する非構造化証拠を効率的に検索し要約するメカニズムを提供する。
本研究では,この目的のためにLLM (Flan-T5 XXL) を提案し,評価する。
具体的には、ゼロショット環境では、患者が特定の状態のリスクがあるかどうかをLLMに推測するよう指示する。
手動による評価のために、このLSMベースのアプローチは、標準情報検索ベースラインに一貫して好まれる出力を提供するが、重要な課題も強調する: LLMは、証拠を幻覚させる傾向がある。
しかしながら、出力に対するモデルの信頼度がllmが幻覚状態にあるときを示す可能性があることを示す結果を提供し、これに対処する手段を提供する可能性がある。
関連論文リスト
- Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - Enhancing Patient-Centric Communication: Leveraging LLMs to Simulate Patient Perspectives [19.462374723301792]
大きな言語モデル(LLM)はロールプレイングのシナリオにおいて印象的な機能を示している。
人間の行動を模倣することで、LLMは具体的な人口統計や専門的なプロファイルに基づいて反応を予測できる。
多様な背景を持つ個人をシミュレーションする上でのLLMの有効性を評価し,これらのシミュレーション行動の一貫性を解析した。
論文 参考訳(メタデータ) (2025-01-12T22:49:32Z) - Benchmarking LLMs and SLMs for patient reported outcomes [0.0]
本研究は,放射線治療の文脈における患者報告Q&Aフォームの要約のためのLSMに対して,いくつかのSLMをベンチマークする。
各種測定値を用いて精度と信頼性を評価する。
この調査結果は、高度な医療タスクのためのSLMの約束と制限の両方を強調し、より効率的でプライバシ保護のAI駆動型ヘルスケアソリューションを促進する。
論文 参考訳(メタデータ) (2024-12-20T19:01:25Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries [9.031182965159976]
大規模言語モデル(LLM)は、大規模で複雑なデータを効率的に分析する可能性を示している。
我々は,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを紹介した。
EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。
論文 参考訳(メタデータ) (2024-02-25T09:41:50Z) - Mitigating Large Language Model Hallucinations via Autonomous Knowledge
Graph-based Retrofitting [51.7049140329611]
本稿では,知識グラフに基づくリトロフィッティング(KGR)を提案する。
実験により,実QAベンチマークにおいて,KGRはLLMの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-11-22T11:08:38Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。