論文の概要: Reliable Curation of EHR Dataset via Large Language Models under Environmental Constraints
- arxiv url: http://arxiv.org/abs/2511.00772v1
- Date: Sun, 02 Nov 2025 02:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.926041
- Title: Reliable Curation of EHR Dataset via Large Language Models under Environmental Constraints
- Title(参考訳): 環境制約下における大規模言語モデルによるERHデータセットの信頼性評価
- Authors: Raymond M. Xiong, Panyu Chen, Tianze Dong, Jian Lu, Benjamin Goldstein, Danyang Zhuo, Anru R. Zhang,
- Abstract要約: CELECは、大規模な言語モデル(LLM)を利用した、自動EHRデータ抽出と分析のためのフレームワークである。
EHRベンチマークのサブセットでは、CELECの実行精度は低レイテンシ、コスト効率、厳格なプライバシを維持しながら達成される。
- 参考スコア(独自算出の注目度): 11.502074619844125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Electronic health records (EHRs) are central to modern healthcare delivery and research; yet, many researchers lack the database expertise necessary to write complex SQL queries or generate effective visualizations, limiting efficient data use and scientific discovery. To address this barrier, we introduce CELEC, a large language model (LLM)-powered framework for automated EHR data extraction and analytics. CELEC translates natural language queries into SQL using a prompting strategy that integrates schema information, few-shot demonstrations, and chain-of-thought reasoning, which together improve accuracy and robustness. On a subset of the EHRSQL benchmark, CELEC achieves execution accuracy comparable to prior systems while maintaining low latency, cost efficiency, and strict privacy by exposing only database metadata to the LLM. CELEC also adheres to strict privacy protocols: the LLM accesses only database metadata (e.g., table and column names), while all query execution occurs securely within the institutional environment, ensuring that no patient-level data is ever transmitted to or shared with the LLM. Ablation studies confirm that each component of the SQL generation pipeline, particularly the few-shot demonstrations, plays a critical role in performance. By lowering technical barriers and enabling medical researchers to query EHR databases directly, CELEC streamlines research workflows and accelerates biomedical discovery.
- Abstract(参考訳): 電子健康記録(EHR)は、現代の医療提供と研究の中心であるが、多くの研究者は、複雑なSQLクエリを書いたり、効果的な視覚化を生成し、効率的なデータ使用と科学的発見を制限するのに必要なデータベースの専門知識を欠いている。
この障壁に対処するため、我々は大規模な言語モデル(LLM)を利用した、自動EHRデータ抽出と分析のためのフレームワークであるCELECを紹介した。
CELECは、スキーマ情報、数発のデモ、チェーンオブ思考推論を統合するプロンプト戦略を使用して、自然言語クエリをSQLに変換することで、正確性と堅牢性を向上させる。
EHRSQLベンチマークのサブセットでは、CELECはLLMにデータベースメタデータのみを公開することで、低レイテンシ、コスト効率、厳格なプライバシを維持しながら、以前のシステムに匹敵する実行精度を達成する。
CELECは厳格なプライバシープロトコルにも準拠する: LLMはデータベースメタデータ(例えばテーブルや列名)のみにアクセスするが、全てのクエリ実行は機関環境内でセキュアに行われ、患者レベルのデータがLLMに送信されたり、共有されたりしないことを保証する。
アブレーション研究は、SQL生成パイプラインの各コンポーネント、特に数発のデモは、パフォーマンスにおいて重要な役割を果たすことを確認している。
技術的な障壁を低くし、医学研究者がEHRデータベースを直接クエリできるようにすることで、CELECは研究ワークフローを簡素化し、生物医学的な発見を加速する。
関連論文リスト
- Conversational LLMs Simplify Secure Clinical Data Access, Understanding, and Analysis [1.3984139865709486]
メディカル・インフォメーション・マート・フォー・インシデント・ケア(MIMIC-IV)は、世界最大のオープンソースEHRデータベースである。
M3は、研究者が普通の英語でデータベースと会話することを可能にする。
論文 参考訳(メタデータ) (2025-06-27T16:24:17Z) - Relational Database Augmented Large Language Model [59.38841050766026]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。
彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。
この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文 参考訳(メタデータ) (2024-07-21T06:19:10Z) - Automating Pharmacovigilance Evidence Generation: Using Large Language Models to Produce Context-Aware SQL [0.0]
検索拡張世代(RAG)フレームワークでOpenAIのGPT-4モデルを利用する。
ビジネスコンテキストドキュメントはビジネスコンテキストドキュメントでリッチ化され、NLQを構造化クエリ言語クエリに変換する。
複雑性の高いクエリが除外された場合、パフォーマンスは最大85%向上した。
論文 参考訳(メタデータ) (2024-06-15T17:07:31Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Querying Large Language Models with SQL [16.383179496709737]
多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。
事前訓練されたLarge Language Models (LLMs) の台頭に伴い、大量のテキストコーパスから抽出された情報を保存および使用するための効果的なソリューションが現在存在する。
本稿では,従来のデータベースアーキテクチャに基づくプロトタイプであるGaloisについて紹介する。
論文 参考訳(メタデータ) (2023-04-02T06:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。