論文の概要: EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records
- arxiv url: http://arxiv.org/abs/2301.07695v1
- Date: Mon, 16 Jan 2023 05:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 15:06:44.659965
- Title: EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records
- Title(参考訳): EHRSQL: 電子健康記録のための実践的なテキストからSQLのベンチマーク
- Authors: Gyubok Lee, Hyeonji Hwang, Seongsu Bae, Yeonsu Kwon, Woncheol Shin,
Seongjun Yang, Minjoon Seo, Jong-Yeup Kim, Edward Choi
- Abstract要約: 電子健康記録(EHR)のための新しいテキスト・トゥ・ザ・データセットを提案する。
音声は、医師、看護師、保険審査、健康記録チームを含む222人の病院職員から収集された。
構造化EMHデータに基づくQAデータセットを構築するため,大学病院で調査を行い,回答をテンプレート化し,種問合せを作成した。
- 参考スコア(独自算出の注目度): 16.01086080366049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new text-to-SQL dataset for electronic health records (EHRs).
The utterances were collected from 222 hospital staff, including physicians,
nurses, insurance review and health records teams, and more. To construct the
QA dataset on structured EHR data, we conducted a poll at a university hospital
and templatized the responses to create seed questions. Then, we manually
linked them to two open-source EHR databases, MIMIC-III and eICU, and included
them with various time expressions and held-out unanswerable questions in the
dataset, which were all collected from the poll. Our dataset poses a unique set
of challenges: the model needs to 1) generate SQL queries that reflect a wide
range of needs in the hospital, including simple retrieval and complex
operations such as calculating survival rate, 2) understand various time
expressions to answer time-sensitive questions in healthcare, and 3)
distinguish whether a given question is answerable or unanswerable based on the
prediction confidence. We believe our dataset, EHRSQL, could serve as a
practical benchmark to develop and assess QA models on structured EHR data and
take one step further towards bridging the gap between text-to-SQL research and
its real-life deployment in healthcare. EHRSQL is available at
https://github.com/glee4810/EHRSQL.
- Abstract(参考訳): 電子健康記録(EHR)のための新しいテキスト間SQLデータセットを提案する。
発話は医師、看護師、保険審査、健康記録チームを含む222人の病院スタッフから集められた。
構造化EMHデータに基づくQAデータセットを構築するため,大学病院で調査を行い,回答をテンプレート化し,種問合せを作成した。
そして、それらをMIMIC-IIIとeICUという2つのオープンソースのEHRデータベースに手動でリンクし、様々な時間表現と、すべてのアンケートから収集されたデータセットに持たない質問を格納した。
私たちのデータセットには、ユニークな課題があります。
1) 病院における幅広いニーズを反映したsqlクエリを生成し、簡単な検索や生存率の計算などの複雑な操作を含む。
2)医療における時間感性質問に対する各種時間表現の理解と対応
3) 予測信頼度に基づいて,ある質問が回答可能か否かを判別する。
当社のデータセットであるEHRSQLは、構造化されたEHRデータ上でのQAモデルの開発と評価のための実用的なベンチマークとして機能し、テキストからSQLまでの研究と、その医療における実際の展開の間のギャップを埋めるための一歩を踏み出すことができると考えています。
EHRSQLはhttps://github.com/glee4810/EHRSQLで入手できる。
関連論文リスト
- Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records [0.6138671548064356]
本稿では,テキスト・ツー・ジェネレーションと検索拡張生成(RAG)を組み合わせて疫学的な疑問に答えるエンド・ツー・エンド手法を提案する。
RAGは、現実的な業界環境で示すように、彼らの能力を改善するための有望な方向性を提供します。
論文 参考訳(メタデータ) (2024-03-14T09:45:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Learning to Ask Like a Physician [24.15961995052862]
2,000以上の質問からなる新たな質問データセットDiSCQについて紹介する。
質問は、100以上のMIMIC-III放電サマリーの医療専門家によって生成される。
我々は、このデータセットを分析し、医療専門家が求めている情報のタイプを特徴付ける。
論文 参考訳(メタデータ) (2022-06-06T15:50:54Z) - DrugEHRQA: A Question Answering Dataset on Structured and Unstructured
Electronic Health Records For Medicine Related Queries [7.507210439502174]
本稿では, 質問応答データセット(DrugEHRQA)を開発した。
我々のデータセットには、70,000以上の質問応答対を含む、医薬品関連のクエリがある。
論文 参考訳(メタデータ) (2022-05-03T03:50:50Z) - Question Answering for Complex Electronic Health Records Database using
Unified Encoder-Decoder Architecture [8.656936724622145]
自然言語質問をSPARQLなどのクエリに変換するEHR-QAのための統一デコーダアーキテクチャUniQAを設計する。
また、複雑な医療用語や様々なタイプミスに対処し、SPARQL構文をよりよく学習するための、シンプルで効果的な入力マスキング(IM)を提案する。
UniQAは、EHRドメインで最も複雑なNLQ2データセットであるMIMIC*(14.2%ゲイン)と、そのタイプミスドバージョンに対して、大幅なパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2021-11-14T05:01:38Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z) - Knowledge Graph-based Question Answering with Electronic Health Records [30.901617020638124]
Question Answering (QA)は、インテリジェントマシンの開発と評価のための広く使われているフレームワークである。
本稿では,自然言語クエリをSPARQLに変換するグラフベースのEHR QAを提案する。
すべてのデータセットはオープンソースとして公開されており、EHR QAの研究をさらに促進している。
論文 参考訳(メタデータ) (2020-10-19T11:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。