論文の概要: Large Language Models for Automating Clinical Data Standardization: HL7 FHIR Use Case
- arxiv url: http://arxiv.org/abs/2507.03067v1
- Date: Thu, 03 Jul 2025 17:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.572643
- Title: Large Language Models for Automating Clinical Data Standardization: HL7 FHIR Use Case
- Title(参考訳): 臨床データ標準化のための大規模言語モデル:HL7 FHIR の使用例
- Authors: Alvaro Riquelme, Pedro Costa, Catalina Martinez,
- Abstract要約: 本稿では、構造化された臨床データセットをHL7 FHIRフォーマットに変換するための半自動アプローチを提案する。
最初のベンチマークでは、リソースの識別は完全なF1スコアに達し、GPT-4oはLlama 3.2を上回った。
誤り解析により,非存在属性の幻覚や粒度のミスマッチが検出され,より詳細なプロンプトが軽減されることがわかった。
- 参考スコア(独自算出の注目度): 0.2516393111664279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For years, semantic interoperability standards have sought to streamline the exchange of clinical data, yet their deployment remains time-consuming, resource-intensive, and technically challenging. To address this, we introduce a semi-automated approach that leverages large language models specifically GPT-4o and Llama 3.2 405b to convert structured clinical datasets into HL7 FHIR format while assessing accuracy, reliability, and security. Applying our method to the MIMIC-IV database, we combined embedding techniques, clustering algorithms, and semantic retrieval to craft prompts that guide the models in mapping each tabular field to its corresponding FHIR resource. In an initial benchmark, resource identification achieved a perfect F1-score, with GPT-4o outperforming Llama 3.2 thanks to the inclusion of FHIR resource schemas within the prompt. Under real-world conditions, accuracy dipped slightly to 94 %, but refinements to the prompting strategy restored robust mappings. Error analysis revealed occasional hallucinations of non-existent attributes and mismatches in granularity, which more detailed prompts can mitigate. Overall, our study demonstrates the feasibility of context-aware, LLM-driven transformation of clinical data into HL7 FHIR, laying the groundwork for semi-automated interoperability workflows. Future work will focus on fine-tuning models with specialized medical corpora, extending support to additional standards such as HL7 CDA and OMOP, and developing an interactive interface to enable expert validation and iterative refinement.
- Abstract(参考訳): 長年にわたり、セマンティック・インターオペラビリティーの標準は臨床データの交換を合理化しようとしてきたが、その展開は時間がかかり、リソースが集中し、技術的に難しいままである。
そこで我々は,GPT-4o と Llama 3.2 405b の大規模言語モデルを用いて,構造化された臨床データセットを HL7 FHIR フォーマットに変換し,精度,信頼性,セキュリティを評価した半自動アプローチを提案する。
本手法をMIMIC-IVデータベースに適用し,組込み手法,クラスタリングアルゴリズム,セマンティック検索を組み合わせることで,各表のフィールドを対応するFHIRリソースにマッピングする際にモデルを誘導するプロンプトを作成する。
最初のベンチマークでは、リソースの識別は完全なF1スコアに達し、GPT-4oはプロンプトにFHIRリソーススキーマが含まれているため、Llama 3.2を上回った。
現実の条件下では、精度はわずかに94%まで低下したが、プロンプト戦略の洗練によりロバストマッピングは回復した。
誤り解析により,非存在属性の幻覚や粒度のミスマッチが検出され,より詳細なプロンプトが軽減されることがわかった。
本研究は,臨床データのHL7 FHIRへの文脈認識,LSMによる変換の実現可能性を示し,半自動相互運用性ワークフローの基盤となる。
今後は、専門的な医療コーパスによる微調整モデル、HL7 CDAやOMOPなどの追加標準のサポート、専門家による検証と反復的改善を可能にするインタラクティブインターフェースの開発に注力する予定である。
関連論文リスト
- Interpretable AI for Time-Series: Multi-Model Heatmap Fusion with Global Attention and NLP-Generated Explanations [1.331812695405053]
本稿では,ResNetが生成するヒートマップと,グローバルに重み付けされた入力サリエンシを備えた再構成された2次元変換器を統合することで,モデル解釈可能性を向上させる新しいフレームワークを提案する。
本手法は、勾配重み付きアクティベーションマップ(ResNet)とトランスフォーマーのアテンションロールアウトを統合可視化にマージし、空間的・時間的アライメントを実現する。
臨床(ECG不整脈検出)および産業データセットに関する実証的評価は,有意な改善を示した。
論文 参考訳(メタデータ) (2025-06-30T20:04:35Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - RAAD-LLM: Adaptive Anomaly Detection Using LLMs and RAG Integration [2.879328762187361]
本稿では,適応型異常検出のための新しいフレームワークであるRAAD-LLMを提案する。
ドメイン固有の知識を効果的に活用することにより、RAAD-LLMは時系列データにおける異常の検出を強化する。
実際のデータセットでは,70.7%から88.6%に精度が向上した。
論文 参考訳(メタデータ) (2025-03-04T17:20:43Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Use of a Structured Knowledge Base Enhances Metadata Curation by Large Language Models [2.186740861187042]
メタデータは、データセットの発見可能性、アクセシビリティ、相互運用性、再利用性を保証する上で重要な役割を果たす。
本稿では,メタデータ標準への準拠性を改善するため,大規模言語モデル (LLM) の可能性について検討する。
NCBI BioSampleレポジトリの肺がん関連サンプルを無作為に記録した200データについて実験を行った。
論文 参考訳(メタデータ) (2024-04-08T22:29:53Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。