論文の概要: Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records
- arxiv url: http://arxiv.org/abs/2403.09226v2
- Date: Thu, 16 May 2024 13:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 18:45:17.148727
- Title: Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records
- Title(参考訳): 電子健康記録を用いた疫学的質問応答のための検索用テキスト-SQL生成法
- Authors: Angelo Ziletti, Leonardo D'Ambrosi,
- Abstract要約: 本稿では,テキスト・ツー・ジェネレーションと検索拡張生成(RAG)を組み合わせて疫学的な疑問に答えるエンド・ツー・エンド手法を提案する。
RAGは、現実的な業界環境で示すように、彼らの能力を改善するための有望な方向性を提供します。
- 参考スコア(独自算出の注目度): 0.6138671548064356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Electronic health records (EHR) and claims data are rich sources of real-world data that reflect patient health status and healthcare utilization. Querying these databases to answer epidemiological questions is challenging due to the intricacy of medical terminology and the need for complex SQL queries. Here, we introduce an end-to-end methodology that combines text-to-SQL generation with retrieval augmented generation (RAG) to answer epidemiological questions using EHR and claims data. We show that our approach, which integrates a medical coding step into the text-to-SQL process, significantly improves the performance over simple prompting. Our findings indicate that although current language models are not yet sufficiently accurate for unsupervised use, RAG offers a promising direction for improving their capabilities, as shown in a realistic industry setting.
- Abstract(参考訳): 電子健康記録(EHR)とクレームデータは、患者の健康状態と医療利用を反映した実世界の豊富なデータ源である。
医療用語の複雑さと複雑なSQLクエリの必要性のため、これらのデータベースに疫学的な質問に答えるためのクエリは難しい。
本稿では,テキスト・ツー・SQL生成と検索拡張生成(RAG)を組み合わせて,ERHとクレームデータを用いた疫学的問題に回答するエンド・ツー・エンド手法を提案する。
医用コーディングのステップをテキスト・トゥ・SQLプロセスに統合することで、簡単なプロンプトよりもパフォーマンスが大幅に向上することを示す。
以上の結果から,現在の言語モデルはまだ教師なし使用には十分正確ではないものの,RAGは現実的な産業環境で示すように,その能力向上に向けた有望な方向性を提供する。
関連論文リスト
- The Geometry of Queries: Query-Based Innovations in Retrieval-Augmented Generation [1.2839205715237014]
大きな言語モデル(LLM)は、慢性疾患に対する個人的健康管理を大幅に改善する可能性がある。
LLMは多様なインターネットデータから学んだパターンに基づいて応答を生成する。
Retrieval Augmented Generation (RAG)は、RAG応答における幻覚と不正確性を緩和する。
論文 参考訳(メタデータ) (2024-07-25T13:47:01Z) - LG AI Research & KAIST at EHRSQL 2024: Self-Training Large Language Models with Pseudo-Labeled Unanswerable Questions for a Reliable Text-to-SQL System on EHRs [58.59113843970975]
テキストから回答へのモデルは、Electronic Health Recordsを知識のない医療専門家に利用できるようにする上で重要なものだ。
疑似ラベル付き非解答質問を用いた自己学習戦略を提案し,EHRのテキスト・ツー・アンサーモデルの信頼性を高める。
論文 参考訳(メタデータ) (2024-05-18T03:25:44Z) - Overview of the EHRSQL 2024 Shared Task on Reliable Text-to-SQL Modeling on Electronic Health Records [12.692089512684955]
1つの戦略は質問応答システムを構築することであり、おそらくはテキスト・ツー・リレーショナル・モデルを活用することである。
EHR 2024共有タスクは、EHRのための質問応答システムの開発における研究の推進と促進を目的としている。
共有タスクに応募した100人以上の参加者のうち、8チームが編成され、共有タスク要求全体を完成させた。
論文 参考訳(メタデータ) (2024-05-04T04:12:18Z) - Large Language Models for Information Retrieval: A Survey [57.7992728506871]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Towards Understanding the Generalization of Medical Text-to-SQL Models
and Datasets [46.12592636378064]
医療分野におけるテキスト・ツー・ジェネレーションの解決にはまだまだ長い道のりがある。
精度は92%から28%に低下し,性能が大幅に低下した現状の言語モデルを評価した。
本稿では,関係言語モデルの一般化性を改善するために,新たなデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T20:26:30Z) - EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records [36.213730355895805]
発声は、医師、看護師、保険審査・健康記録チームを含む222人の病院職員から集められた。
我々はこれらの質問を、MIMIC-IIIとeICUの2つのオープンソースのEHRデータベースに手動でリンクし、データセットに様々な時間表現と解決不可能な質問を格納した。
論文 参考訳(メタデータ) (2023-01-16T05:10:20Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。