論文の概要: Harnessing Large Language Models for Precision Querying and Retrieval-Augmented Knowledge Extraction in Clinical Data Science
- arxiv url: http://arxiv.org/abs/2601.20674v1
- Date: Wed, 28 Jan 2026 14:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.985091
- Title: Harnessing Large Language Models for Precision Querying and Retrieval-Augmented Knowledge Extraction in Clinical Data Science
- Title(参考訳): 臨床データ科学における高精度検索・検索型知識抽出のための大規模言語モデルの構築
- Authors: Juan Jose Rubio Jan, Jack Wu, Julia Ive,
- Abstract要約: 本研究では,2つの基礎的電子健康記録(EHR)データサイエンスタスクに対して,Large Language Models (LLMs)を適用した。
我々は、LLMが分析のための大規模な構造化データセットと正確に相互作用する能力をテストする。
本稿では,各データセットやタスクの特徴に合わせて,合成質問と解答ペアを自動生成するフレキシブルな評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.4325249294405555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study applies Large Language Models (LLMs) to two foundational Electronic Health Record (EHR) data science tasks: structured data querying (using programmatic languages, Python/Pandas) and information extraction from unstructured clinical text via a Retrieval Augmented Generation (RAG) pipeline. We test the ability of LLMs to interact accurately with large structured datasets for analytics and the reliability of LLMs in extracting semantically correct information from free text health records when supported by RAG. To this end, we presented a flexible evaluation framework that automatically generates synthetic question and answer pairs tailored to the characteristics of each dataset or task. Experiments were conducted on a curated subset of MIMIC III, (four structured tables and one clinical note type), using a mix of locally hosted and API-based LLMs. Evaluation combined exact-match metrics, semantic similarity, and human judgment. Our findings demonstrate the potential of LLMs to support precise querying and accurate information extraction in clinical workflows.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) を2つの基礎電子健康記録(EHR)データサイエンスタスクに適用する。
我々は、RAGがサポートする自由テキスト健康記録から意味論的に正しい情報を抽出する際、LLMが分析のための大規模構造化データセットと正確に相互作用する能力と、LCMの信頼性を検証した。
そこで我々は,各データセットやタスクの特徴に合わせて,合成質問と解答ペアを自動生成するフレキシブルな評価フレームワークを提案する。
MIMIC III (4つの構造化テーブルと1つの臨床ノートタイプ) の培養したサブセットに対して, 局所的にホストされたLLMとAPIベースのLCMの混合を用いて実験を行った。
評価には、正確なマッチングメトリクス、意味的類似性、人間の判断が組み合わされた。
本研究は,臨床ワークフローにおける正確なクエリと正確な情報抽出を支援するLLMの可能性を示すものである。
関連論文リスト
- Leveraging LLMs for Structured Data Extraction from Unstructured Patient Records [0.0]
手動チャートのレビューは、臨床研究において非常に時間がかかり、資源集約的な要素である。
局所展開型大規模言語モデル(LLM)を利用した臨床ノートからの自動特徴抽出のためのフレームワークを提案する。
このフレームワークは、手動のチャートレビューの負担を軽減し、データキャプチャの一貫性を向上させるLLMシステムの可能性を示す。
論文 参考訳(メタデータ) (2025-12-03T14:10:12Z) - LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。
LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文 参考訳(メタデータ) (2025-09-28T17:31:38Z) - Analise Semantica Automatizada com LLM e RAG para Bulas Farmaceuticas [0.0]
本研究では,大規模言語モデル(LLM)と組み合わせたRAGアーキテクチャを用いて,PDF形式の文書解析を自動化する。
本提案では, 埋め込み, 意味データ抽出, 文脈化自然言語応答の生成によるベクトル探索手法を統合する。
論文 参考訳(メタデータ) (2025-07-07T17:48:15Z) - When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。
我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文 参考訳(メタデータ) (2024-08-15T03:56:40Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Local Large Language Models for Complex Structured Medical Tasks [0.0]
本稿では,大規模言語モデルの言語推論機能と,複雑なドメイン特化タスクに取り組むための局所学習の利点を組み合わせたアプローチを提案する。
具体的には,病理報告から構造化条件コードを抽出し,そのアプローチを実証する。
論文 参考訳(メタデータ) (2023-08-03T12:36:13Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。