論文の概要: Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records
- arxiv url: http://arxiv.org/abs/2403.09226v1
- Date: Thu, 14 Mar 2024 09:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:07:03.491166
- Title: Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records
- Title(参考訳): 電子健康記録を用いた疫学的質問応答のための検索用テキスト-SQL生成法
- Authors: Angelo Ziletti, Leonardo D'Ambrosi,
- Abstract要約: 本稿では,テキスト・ツー・ジェネレーションと検索拡張生成(RAG)を組み合わせて疫学的な疑問に答えるエンド・ツー・エンド手法を提案する。
RAGは、現実的な業界環境で示すように、彼らの能力を改善するための有望な方向性を提供します。
- 参考スコア(独自算出の注目度): 0.6138671548064356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Electronic health records (EHR) and claims data are rich sources of real-world data that reflect patient health status and healthcare utilization. Querying these databases to answer epidemiological questions is challenging due to the intricacy of medical terminology and the need for complex SQL queries. Here, we introduce an end-to-end methodology that combines text-to-SQL generation with retrieval augmented generation (RAG) to answer epidemiological questions using EHR and claims data. We show that our approach, which integrates a medical coding step into the text-to-SQL process, significantly improves the performance over simple prompting. Our findings indicate that although current language models are not yet sufficiently accurate for unsupervised use, RAG offers a promising direction for improving their capabilities, as shown in a realistic industry setting.
- Abstract(参考訳): 電子健康記録(EHR)とクレームデータは、患者の健康状態と医療利用を反映した実世界の豊富なデータ源である。
医療用語の複雑さと複雑なSQLクエリの必要性のため、これらのデータベースに疫学的な質問に答えるためのクエリは難しい。
本稿では,テキスト・ツー・SQL生成と検索拡張生成(RAG)を組み合わせて,ERHとクレームデータを用いた疫学的問題に回答するエンド・ツー・エンド手法を提案する。
医用コーディングのステップをテキスト・トゥ・SQLプロセスに統合することで、簡単なプロンプトよりもパフォーマンスが大幅に向上することを示す。
以上の結果から,現在の言語モデルはまだ教師なし使用には十分正確ではないものの,RAGは現実的な産業環境で示すように,その能力向上に向けた有望な方向性を提供する。
関連論文リスト
- Privacy-Preserved Neural Graph Databases [52.1165903128359]
NGDBにおけるプライバシー漏洩のリスクを軽減するために,プライバシ保存型ニューラルグラフデータベース(P-NGDB)フレームワークを提案する。
本研究は,NGDBを訓練段階に導入し,個人情報で質問したときの識別不能な回答を生成する。
論文 参考訳(メタデータ) (2023-12-25T02:32:05Z) - README: Bridging Medical Jargon and Lay Understanding for Patient
Education through Data-Centric NLP [9.746045026596638]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。
私たちはまず、2万以上のユニークな医療用語と30万件の言及からなるデータセットを作成しました。
また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文 参考訳(メタデータ) (2023-12-24T23:01:00Z) - Large Language Models for Information Retrieval: A Survey [57.7992728506871]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Towards Understanding the Generalization of Medical Text-to-SQL Models
and Datasets [46.12592636378064]
医療分野におけるテキスト・ツー・ジェネレーションの解決にはまだまだ長い道のりがある。
精度は92%から28%に低下し,性能が大幅に低下した現状の言語モデルを評価した。
本稿では,関係言語モデルの一般化性を改善するために,新たなデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T20:26:30Z) - EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records [36.213730355895805]
発声は、医師、看護師、保険審査・健康記録チームを含む222人の病院職員から集められた。
我々はこれらの質問を、MIMIC-IIIとeICUの2つのオープンソースのEHRデータベースに手動でリンクし、データセットに様々な時間表現と解決不可能な質問を格納した。
論文 参考訳(メタデータ) (2023-01-16T05:10:20Z) - Recent Advances in Text-to-SQL: A Survey of What We Have and What We
Expect [12.445150614650801]
テキスト・トゥ・オブは自然言語処理とデータベース・コミュニティの両方から注目を集めている。
我々は、データセット、メソッド、評価のためのテキスト・トゥ・オブの最近の進歩についてレビューする。
この調査が,既存の作業への迅速なアクセスと将来の研究のモチベーションに役立てられることを期待しています。
論文 参考訳(メタデータ) (2022-08-22T07:18:23Z) - Question Answering for Complex Electronic Health Records Database using
Unified Encoder-Decoder Architecture [8.656936724622145]
自然言語質問をSPARQLなどのクエリに変換するEHR-QAのための統一デコーダアーキテクチャUniQAを設計する。
また、複雑な医療用語や様々なタイプミスに対処し、SPARQL構文をよりよく学習するための、シンプルで効果的な入力マスキング(IM)を提案する。
UniQAは、EHRドメインで最も複雑なNLQ2データセットであるMIMIC*(14.2%ゲイン)と、そのタイプミスドバージョンに対して、大幅なパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2021-11-14T05:01:38Z) - Health Status Prediction with Local-Global Heterogeneous Behavior Graph [69.99431339130105]
ウェアラブルセンサから継続的に収集される各種データストリームにより、健康状態の推定が可能です。
行動関連マルチソースデータストリームをローカル・グローバル・グラフでモデル化することを提案する。
学生生活データセットを用いて実験を行い,提案モデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-03-23T11:10:04Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。