論文の概要: Reliable Curation of EHR Dataset via Large Language Models under Environmental Constraints
- arxiv url: http://arxiv.org/abs/2511.00772v1
- Date: Sun, 02 Nov 2025 02:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.926041
- Title: Reliable Curation of EHR Dataset via Large Language Models under Environmental Constraints
- Title(参考訳): 環境制約下における大規模言語モデルによるERHデータセットの信頼性評価
- Authors: Raymond M. Xiong, Panyu Chen, Tianze Dong, Jian Lu, Benjamin Goldstein, Danyang Zhuo, Anru R. Zhang,
- Abstract要約: CELECは、大規模な言語モデル(LLM)を利用した、自動EHRデータ抽出と分析のためのフレームワークである。
EHRベンチマークのサブセットでは、CELECの実行精度は低レイテンシ、コスト効率、厳格なプライバシを維持しながら達成される。
- 参考スコア(独自算出の注目度): 11.502074619844125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Electronic health records (EHRs) are central to modern healthcare delivery and research; yet, many researchers lack the database expertise necessary to write complex SQL queries or generate effective visualizations, limiting efficient data use and scientific discovery. To address this barrier, we introduce CELEC, a large language model (LLM)-powered framework for automated EHR data extraction and analytics. CELEC translates natural language queries into SQL using a prompting strategy that integrates schema information, few-shot demonstrations, and chain-of-thought reasoning, which together improve accuracy and robustness. On a subset of the EHRSQL benchmark, CELEC achieves execution accuracy comparable to prior systems while maintaining low latency, cost efficiency, and strict privacy by exposing only database metadata to the LLM. CELEC also adheres to strict privacy protocols: the LLM accesses only database metadata (e.g., table and column names), while all query execution occurs securely within the institutional environment, ensuring that no patient-level data is ever transmitted to or shared with the LLM. Ablation studies confirm that each component of the SQL generation pipeline, particularly the few-shot demonstrations, plays a critical role in performance. By lowering technical barriers and enabling medical researchers to query EHR databases directly, CELEC streamlines research workflows and accelerates biomedical discovery.
- Abstract(参考訳): 電子健康記録(EHR)は、現代の医療提供と研究の中心であるが、多くの研究者は、複雑なSQLクエリを書いたり、効果的な視覚化を生成し、効率的なデータ使用と科学的発見を制限するのに必要なデータベースの専門知識を欠いている。
この障壁に対処するため、我々は大規模な言語モデル(LLM)を利用した、自動EHRデータ抽出と分析のためのフレームワークであるCELECを紹介した。
CELECは、スキーマ情報、数発のデモ、チェーンオブ思考推論を統合するプロンプト戦略を使用して、自然言語クエリをSQLに変換することで、正確性と堅牢性を向上させる。
EHRSQLベンチマークのサブセットでは、CELECはLLMにデータベースメタデータのみを公開することで、低レイテンシ、コスト効率、厳格なプライバシを維持しながら、以前のシステムに匹敵する実行精度を達成する。
CELECは厳格なプライバシープロトコルにも準拠する: LLMはデータベースメタデータ(例えばテーブルや列名)のみにアクセスするが、全てのクエリ実行は機関環境内でセキュアに行われ、患者レベルのデータがLLMに送信されたり、共有されたりしないことを保証する。
アブレーション研究は、SQL生成パイプラインの各コンポーネント、特に数発のデモは、パフォーマンスにおいて重要な役割を果たすことを確認している。
技術的な障壁を低くし、医学研究者がEHRデータベースを直接クエリできるようにすることで、CELECは研究ワークフローを簡素化し、生物医学的な発見を加速する。
関連論文リスト
- Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning [49.559151128219725]
大規模言語モデル(LLM)は医療分野で大きな可能性を示しており、いくつかのベンチマークで高いパフォーマンスを実現している。
しかし、実際の医療シナリオではパフォーマンスが低下し続けており、コンテキスト認識の強化が要求されることが多い。
データ駆動型アプローチであるMultifaceted Self-Refinement (MuSeR)を提案する。
論文 参考訳(メタデータ) (2025-11-13T08:13:23Z) - Prompt Tuning for Natural Language to SQL with Embedding Fine-Tuning and RAG [1.988259704465628]
本稿では,エラーの型を診断し,原因を同定するエラー訂正機構を統合する新しいフレームワークを提案する。
既存のベースラインよりも12%の精度向上を実現しています。
論文 参考訳(メタデータ) (2025-11-11T13:41:13Z) - EHR-MCP: Real-world Evaluation of Clinical Information Retrieval by Large Language Models via Model Context Protocol [0.0]
大規模言語モデル (LLM) は医療における有望性を示すが、病院への展開は電子健康記録(EHR)システムへのアクセス制限によって制限される。
Model Context Protocol (MCP)は、LCMと外部ツールの統合を可能にする。
EHR-MCPは病院のERHデータベースと統合されたカスタムMPPツールのフレームワークで、GPT-4.1をLangGraph ReActエージェントを介して利用した。
論文 参考訳(メタデータ) (2025-09-19T13:17:16Z) - Conversational LLMs Simplify Secure Clinical Data Access, Understanding, and Analysis [1.3984139865709486]
メディカル・インフォメーション・マート・フォー・インシデント・ケア(MIMIC-IV)は、世界最大のオープンソースEHRデータベースである。
M3は、研究者が普通の英語でデータベースと会話することを可能にする。
論文 参考訳(メタデータ) (2025-06-27T16:24:17Z) - Leveraging Foundation Language Models (FLMs) for Automated Cohort Extraction from Large EHR Databases [50.552056536968166]
本稿では,2つの大規模かつ広くアクセス可能なEHRデータベース上で列マッチングを自動化するアルゴリズムを提案し,評価する。
提案手法は,学習済みの小型汎用言語モデルを用いて,13ドル列のうち12ドルを正確にマッチングし,高いトップ3の精度を92%の精度で達成する。
論文 参考訳(メタデータ) (2024-12-16T06:19:35Z) - Relational Database Augmented Large Language Model [59.38841050766026]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。
彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。
この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文 参考訳(メタデータ) (2024-07-21T06:19:10Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - Automating Pharmacovigilance Evidence Generation: Using Large Language Models to Produce Context-Aware SQL [0.0]
検索拡張世代(RAG)フレームワークでOpenAIのGPT-4モデルを利用する。
ビジネスコンテキストドキュメントはビジネスコンテキストドキュメントでリッチ化され、NLQを構造化クエリ言語クエリに変換する。
複雑性の高いクエリが除外された場合、パフォーマンスは最大85%向上した。
論文 参考訳(メタデータ) (2024-06-15T17:07:31Z) - CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。
特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。
私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Querying Large Language Models with SQL [16.383179496709737]
多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。
事前訓練されたLarge Language Models (LLMs) の台頭に伴い、大量のテキストコーパスから抽出された情報を保存および使用するための効果的なソリューションが現在存在する。
本稿では,従来のデータベースアーキテクチャに基づくプロトタイプであるGaloisについて紹介する。
論文 参考訳(メタデータ) (2023-04-02T06:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。