論文の概要: SCARE: A Benchmark for SQL Correction and Question Answerability Classification for Reliable EHR Question Answering
- arxiv url: http://arxiv.org/abs/2511.17559v1
- Date: Thu, 13 Nov 2025 06:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.273515
- Title: SCARE: A Benchmark for SQL Correction and Question Answerability Classification for Reliable EHR Question Answering
- Title(参考訳): SCARE: 信頼性の高いEHR質問回答のためのSQL訂正と質問解答可能性分類のためのベンチマーク
- Authors: Gyubok Lee, Woosog Chay, Edward Choi,
- Abstract要約: EHR QAシステムにおける保温後安全層として機能する手法を評価するためのベンチマークであるSCAREを紹介する。
SCAREは(1)質問応答可能性(すなわち、質問が回答可能か、あいまいか、答え不能か)を分類し、(2)候補qlクエリを検証または修正する共同タスクを評価する。
- 参考スコア(独自算出の注目度): 18.161591137171623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have enabled the development of text-to-SQL models that allow clinicians to query structured data stored in Electronic Health Records (EHRs) using natural language. However, deploying these models for EHR question answering (QA) systems in safety-critical clinical environments remains challenging: incorrect SQL queries-whether caused by model errors or problematic user inputs-can undermine clinical decision-making and jeopardize patient care. While prior work has mainly focused on improving SQL generation accuracy or filtering questions before execution, there is a lack of a unified benchmark for evaluating independent post-hoc verification mechanisms (i.e., a component that inspects and validates the generated SQL before execution), which is crucial for safe deployment. To fill this gap, we introduce SCARE, a benchmark for evaluating methods that function as a post-hoc safety layer in EHR QA systems. SCARE evaluates the joint task of (1) classifying question answerability (i.e., determining whether a question is answerable, ambiguous, or unanswerable) and (2) verifying or correcting candidate SQL queries. The benchmark comprises 4,200 triples of questions, candidate SQL queries, and expected model outputs, grounded in the MIMIC-III, MIMIC-IV, and eICU databases. It covers a diverse set of questions and corresponding candidate SQL queries generated by seven different text-to-SQL models, ensuring a realistic and challenging evaluation. Using SCARE, we benchmark a range of approaches-from two-stage methods to agentic frameworks. Our experiments reveal a critical trade-off between question classification and SQL error correction, highlighting key challenges and outlining directions for future research.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩により、臨床医が自然言語を用いて電子健康記録(EHR)に格納された構造化データをクエリできるテキスト-SQLモデルの開発が可能になった。
しかし、これらのモデルがEHR質問応答システム(QA)システムに安全クリティカルな臨床環境に展開することは依然として困難であり、モデルエラーや問題のあるユーザ入力によって引き起こされる誤ったSQLクエリは、臨床上の意思決定を損なう可能性があり、患者のケアを損なう可能性がある。
以前の作業は、実行前にSQL生成の正確性の改善や質問のフィルタリングに重点を置いていたが、独立したポストホック検証メカニズム(実行前に生成されたSQLを検査し、検証するコンポーネント)を評価するための統一されたベンチマークが欠如している。
このギャップを埋めるために、EHR QAシステムにおける保温後安全層として機能する手法を評価するためのベンチマークであるSCAREを紹介する。
SCAREは(1)質問応答可能性(すなわち、質問が回答可能か、あいまいか、答え不能か)を分類し、(2)候補SQLクエリを検証または修正する共同タスクを評価する。
MIMIC-III、MIMIC-IV、eICUデータベースをベースとした4,200の3つの質問、候補SQLクエリ、予測モデル出力で構成されている。
多様な質問のセットと、7つの異なるテキストからSQLモデルによって生成される候補SQLクエリをカバーし、現実的で挑戦的な評価を保証する。
SCAREを使って、2段階のメソッドからエージェントフレームワークまで、さまざまなアプローチをベンチマークします。
本実験は,質問分類とSQLの誤り訂正の間に重要なトレードオフを明らかにし,重要な課題を浮き彫りにし,今後の研究の方向性を概説する。
関連論文リスト
- DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - KU-DMIS at EHRSQL 2024:Generating SQL query via question templatization in EHR [17.998140363824174]
本稿では、ドメイン外質問とクエリ実行で生成されたクエリを堅牢に処理する新しいテキスト・ツー・ドメインフレームワークを提案する。
我々は,強力な大規模言語モデル (LLM) と細調整のGPT-3.5を用いて,EHRデータベースシステムのテーブルスキーマを含む詳細なプロンプトを出力する。
論文 参考訳(メタデータ) (2024-05-22T02:15:57Z) - LG AI Research & KAIST at EHRSQL 2024: Self-Training Large Language Models with Pseudo-Labeled Unanswerable Questions for a Reliable Text-to-SQL System on EHRs [58.59113843970975]
テキストから回答へのモデルは、Electronic Health Recordsを知識のない医療専門家に利用できるようにする上で重要なものだ。
疑似ラベル付き非解答質問を用いた自己学習戦略を提案し,EHRのテキスト・ツー・アンサーモデルの信頼性を高める。
論文 参考訳(メタデータ) (2024-05-18T03:25:44Z) - Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering [48.43453390717167]
本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。
以前のEQAの作業とは異なり、状況的クエリでは、エージェントが複数のオブジェクト状態を正しく識別し、回答のために状態に関するコンセンサスに到達する必要がある。
本稿では, LLMの出力をラップして, 独自のコンセンサスクエリとそれに対応するコンセンサスオブジェクト情報を生成する新しいPrompt-Generate-Evaluateスキームを提案する。
論文 参考訳(メタデータ) (2024-05-08T00:45:20Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z) - EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records [36.213730355895805]
発声は、医師、看護師、保険審査・健康記録チームを含む222人の病院職員から集められた。
我々はこれらの質問を、MIMIC-IIIとeICUの2つのオープンソースのEHRデータベースに手動でリンクし、データセットに様々な時間表現と解決不可能な質問を格納した。
論文 参考訳(メタデータ) (2023-01-16T05:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。