論文の概要: Patient-Similarity Cohort Reasoning in Clinical Text-to-SQL
- arxiv url: http://arxiv.org/abs/2601.09876v1
- Date: Wed, 14 Jan 2026 21:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.901887
- Title: Patient-Similarity Cohort Reasoning in Clinical Text-to-SQL
- Title(参考訳): 臨床テキスト・トゥ・SQLにおける患者類似コホート推論
- Authors: Yifei Shen, Yilun Zhao, Justice Ou, Tinglin Huang, Arman Cohan,
- Abstract要約: CLINはMIMICIV v3.1の633のエキスパートアノテートタスクのベンチマークである。
我々はChain-of-Thoughtセルフリファインメントの下で22のプロプライエタリモデルとオープンソースモデルを評価した。
最近の進歩にもかかわらず、パフォーマンスは臨床的な信頼性には程遠い。
- 参考スコア(独自算出の注目度): 63.578576078216976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world clinical text-to-SQL requires reasoning over heterogeneous EHR tables, temporal windows, and patient-similarity cohorts to produce executable queries. We introduce CLINSQL, a benchmark of 633 expert-annotated tasks on MIMIC-IV v3.1 that demands multi-table joins, clinically meaningful filters, and executable SQL. Solving CLINSQL entails navigating schema metadata and clinical coding systems, handling long contexts, and composing multi-step queries beyond traditional text-to-SQL. We evaluate 22 proprietary and open-source models under Chain-of-Thought self-refinement and use rubric-based SQL analysis with execution checks that prioritize critical clinical requirements. Despite recent advances, performance remains far from clinical reliability: on the test set, GPT-5-mini attains 74.7% execution score, DeepSeek-R1 leads open-source at 69.2% and Gemini-2.5-Pro drops from 85.5% on Easy to 67.2% on Hard. Progress on CLINSQL marks tangible advances toward clinically reliable text-to-SQL for real-world EHR analytics.
- Abstract(参考訳): Real-world Clinical Text-to-SQLでは、ヘテロジニアスなEHRテーブル、時間的ウィンドウ、および患者類似コホートを推論して実行可能なクエリを生成する必要がある。
私たちはMIMIC-IV v3.1で633のエキスパートアノテートタスクのベンチマークであるCLINSQLを紹介します。
CLINSQLの解決には、スキーマメタデータと臨床コーディングシステムのナビゲート、長いコンテキストの処理、従来のテキストからSQLまでのマルチステップクエリの構成が含まれる。
我々は、Chain-of-Thoughtセルフリファインメントの下で22のプロプライエタリおよびオープンソースモデルを評価し、重要な臨床要件を優先する実行チェックとルーリックベースのSQL分析を使用した。
近年の進歩にもかかわらず、GPT-5-miniは74.7%、DeepSeek-R1は69.2%、Gemini-2.5-Proは85.5%から67.2%に低下した。
CLINSQLの進歩は、現実のEHR分析のための臨床的に信頼性の高いテキストからSQLへの具体的な進歩を示している。
関連論文リスト
- SCARE: A Benchmark for SQL Correction and Question Answerability Classification for Reliable EHR Question Answering [18.161591137171623]
EHR QAシステムにおける保温後安全層として機能する手法を評価するためのベンチマークであるSCAREを紹介する。
SCAREは(1)質問応答可能性(すなわち、質問が回答可能か、あいまいか、答え不能か)を分類し、(2)候補qlクエリを検証または修正する共同タスクを評価する。
論文 参考訳(メタデータ) (2025-11-13T06:35:29Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases [20.708207067646033]
実世界のバイオメディカル知識ベース上で科学的推論を評価するために設計された最初のベンチマークであるBiomedを紹介する。
Biomedはテンプレートから生成された68,000のQ/Q/Aトリプルで構成され、調和したBigQueryの知識ベースに基盤を置いている。
GPT-o3-miniは59.0%の精度で実行し、カスタムマルチステップエージェントBMは62.6%の精度で実行した。
論文 参考訳(メタデータ) (2025-05-23T17:58:07Z) - ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback [49.21833666405111]
大規模言語モデル(LLM)は、多くの推論タスクにおいて優れているが、Chain-of-Thought(CoT)推論を活用する能力はいまだに未定である。
我々は,オープンソース LLM を反復的に最適化する新しいフレームワークである ExCoT を提案する。
論文 参考訳(メタデータ) (2025-03-25T18:17:36Z) - OpenSearch-SQL: Enhancing Text-to-SQL with Dynamic Few-shot and Consistency Alignment [6.2089733671434875]
我々は,テキストからエージェントまでのタスクを,整合性アライメント機構に基づくアライメントモジュールとともに,前処理,抽出,生成,リファインメントの4つの主要なモジュールに分割するOpenSearch-を提案する。
これらの手法はテキスト・ツー・エージェント・タスクにおけるLLMの性能を大幅に向上させた。
実験の結果、OpenSearch-はBIRD開発セットで69.3%、テストセットで72.28%、報酬ベースの効率スコア(R-VES)で69.3で実行精度(EX)を達成した。
論文 参考訳(メタデータ) (2025-02-19T07:51:50Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - LG AI Research & KAIST at EHRSQL 2024: Self-Training Large Language Models with Pseudo-Labeled Unanswerable Questions for a Reliable Text-to-SQL System on EHRs [58.59113843970975]
テキストから回答へのモデルは、Electronic Health Recordsを知識のない医療専門家に利用できるようにする上で重要なものだ。
疑似ラベル付き非解答質問を用いた自己学習戦略を提案し,EHRのテキスト・ツー・アンサーモデルの信頼性を高める。
論文 参考訳(メタデータ) (2024-05-18T03:25:44Z) - COMPOSE: Cross-Modal Pseudo-Siamese Network for Patient Trial Matching [70.08786840301435]
本稿では, CrOss-Modal PseudO-SiamEse Network (COMPOSE) を提案する。
実験の結果,患者基準マッチングでは98.0%,患者基準マッチングでは83.7%の精度でAUCに到達できることがわかった。
論文 参考訳(メタデータ) (2020-06-15T21:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。