論文の概要: EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records
- arxiv url: http://arxiv.org/abs/2301.07695v3
- Date: Tue, 11 Apr 2023 04:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 18:21:05.728633
- Title: EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records
- Title(参考訳): EHRSQL: 電子健康記録のための実践的なテキストからSQLのベンチマーク
- Authors: Gyubok Lee, Hyeonji Hwang, Seongsu Bae, Yeonsu Kwon, Woncheol Shin,
Seongjun Yang, Minjoon Seo, Jong-Yeup Kim, Edward Choi
- Abstract要約: 電子健康記録(EHR)のための新しいテキスト・トゥ・ザ・データセットを提案する。
音声は、医師、看護師、保険審査、健康記録チームを含む222人の病院職員から収集された。
構造化EMHデータに基づくQAデータセットを構築するため,大学病院で調査を行い,回答をテンプレート化し,種問合せを作成した。
- 参考スコア(独自算出の注目度): 16.01086080366049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new text-to-SQL dataset for electronic health records (EHRs).
The utterances were collected from 222 hospital staff, including physicians,
nurses, insurance review and health records teams, and more. To construct the
QA dataset on structured EHR data, we conducted a poll at a university hospital
and templatized the responses to create seed questions. Then, we manually
linked them to two open-source EHR databases, MIMIC-III and eICU, and included
them with various time expressions and held-out unanswerable questions in the
dataset, which were all collected from the poll. Our dataset poses a unique set
of challenges: the model needs to 1) generate SQL queries that reflect a wide
range of needs in the hospital, including simple retrieval and complex
operations such as calculating survival rate, 2) understand various time
expressions to answer time-sensitive questions in healthcare, and 3)
distinguish whether a given question is answerable or unanswerable based on the
prediction confidence. We believe our dataset, EHRSQL, could serve as a
practical benchmark to develop and assess QA models on structured EHR data and
take one step further towards bridging the gap between text-to-SQL research and
its real-life deployment in healthcare. EHRSQL is available at
https://github.com/glee4810/EHRSQL.
- Abstract(参考訳): 電子健康記録(EHR)のための新しいテキスト間SQLデータセットを提案する。
発話は医師、看護師、保険審査、健康記録チームを含む222人の病院スタッフから集められた。
構造化EMHデータに基づくQAデータセットを構築するため,大学病院で調査を行い,回答をテンプレート化し,種問合せを作成した。
そして、それらをMIMIC-IIIとeICUという2つのオープンソースのEHRデータベースに手動でリンクし、様々な時間表現と、すべてのアンケートから収集されたデータセットに持たない質問を格納した。
私たちのデータセットには、ユニークな課題があります。
1) 病院における幅広いニーズを反映したsqlクエリを生成し、簡単な検索や生存率の計算などの複雑な操作を含む。
2)医療における時間感性質問に対する各種時間表現の理解と対応
3) 予測信頼度に基づいて,ある質問が回答可能か否かを判別する。
当社のデータセットであるEHRSQLは、構造化されたEHRデータ上でのQAモデルの開発と評価のための実用的なベンチマークとして機能し、テキストからSQLまでの研究と、その医療における実際の展開の間のギャップを埋めるための一歩を踏み出すことができると考えています。
EHRSQLはhttps://github.com/glee4810/EHRSQLで入手できる。
関連論文リスト
- Text2SQL is Not Enough: Unifying AI and Databases with TAG [47.45480855418987]
Table-Augmented Generation (TAG) は、データベース上の自然言語の質問に答えるパラダイムである。
我々は、TAG問題を研究するためのベンチマークを開発し、標準手法がクエリの20%以上を正しく答えることを発見した。
論文 参考訳(メタデータ) (2024-08-27T00:50:14Z) - EHR-SeqSQL : A Sequential Text-to-SQL Dataset For Interactively Exploring Electronic Health Records [11.78795632771211]
EHRデータベースのための新しいシーケンシャルテキスト・ツー・スクールのデータセットであるEHR-Seqを紹介する。
EHR-Seqは、シーケンシャルな質問と文脈的な質問を含む最初の医療用テキストからsqlのデータセットベンチマークである。
本実験は, 単ターン法よりも多ターン法の方が構成性に優れていることを示す。
論文 参考訳(メタデータ) (2024-05-23T07:14:21Z) - LG AI Research & KAIST at EHRSQL 2024: Self-Training Large Language Models with Pseudo-Labeled Unanswerable Questions for a Reliable Text-to-SQL System on EHRs [58.59113843970975]
テキストから回答へのモデルは、Electronic Health Recordsを知識のない医療専門家に利用できるようにする上で重要なものだ。
疑似ラベル付き非解答質問を用いた自己学習戦略を提案し,EHRのテキスト・ツー・アンサーモデルの信頼性を高める。
論文 参考訳(メタデータ) (2024-05-18T03:25:44Z) - Overview of the EHRSQL 2024 Shared Task on Reliable Text-to-SQL Modeling on Electronic Health Records [12.692089512684955]
1つの戦略は質問応答システムを構築することであり、おそらくはテキスト・ツー・リレーショナル・モデルを活用することである。
EHR 2024共有タスクは、EHRのための質問応答システムの開発における研究の推進と促進を目的としている。
共有タスクに応募した100人以上の参加者のうち、8チームが編成され、共有タスク要求全体を完成させた。
論文 参考訳(メタデータ) (2024-05-04T04:12:18Z) - Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records [0.6138671548064356]
本稿では,テキスト・ツー・ジェネレーションと検索拡張生成(RAG)を組み合わせて疫学的な疑問に答えるエンド・ツー・エンド手法を提案する。
RAGは、現実的な業界環境で示すように、彼らの能力を改善するための有望な方向性を提供します。
論文 参考訳(メタデータ) (2024-03-14T09:45:05Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - DrugEHRQA: A Question Answering Dataset on Structured and Unstructured
Electronic Health Records For Medicine Related Queries [7.507210439502174]
本稿では, 質問応答データセット(DrugEHRQA)を開発した。
我々のデータセットには、70,000以上の質問応答対を含む、医薬品関連のクエリがある。
論文 参考訳(メタデータ) (2022-05-03T03:50:50Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。