論文の概要: Leveraging Open-Source Large Language Models for encoding Social Determinants of Health using an Intelligent Router
- arxiv url: http://arxiv.org/abs/2405.19631v1
- Date: Thu, 30 May 2024 02:33:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 18:36:41.401302
- Title: Leveraging Open-Source Large Language Models for encoding Social Determinants of Health using an Intelligent Router
- Title(参考訳): インテリジェントルータを用いたオープンソースの大規模言語モデルによる健康決定因子の符号化
- Authors: Akul Goel, Surya Narayanan Hari, Belinda Waltman, Matt Thomson,
- Abstract要約: SDOH(Social Determinants of Health)は、患者の健康に重要な役割を担っている。
大規模言語モデル(LLM)は、EHRから構造化されていないデータを抽出することを約束する。
我々は,言語モデルルータを用いたSDOH符号化のためのインテリジェントルーティングシステムを導入し,医療記録データをオープンソースLLMに転送する。
- 参考スコア(独自算出の注目度): 0.7499722271664144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social Determinants of Health (SDOH) play a significant role in patient health outcomes. The Center of Disease Control (CDC) introduced a subset of ICD-10 codes called Z-codes in an attempt to officially recognize and measure SDOH in the health care system. However, these codes are rarely annotated in a patient's Electronic Health Record (EHR), and instead, in many cases, need to be inferred from clinical notes. Previous research has shown that large language models (LLMs) show promise on extracting unstructured data from EHRs. However, with thousands of models to choose from with unique architectures and training sets, it's difficult to choose one model that performs the best on coding tasks. Further, clinical notes contain trusted health information making the use of closed-source language models from commercial vendors difficult, so the identification of open source LLMs that can be run within health organizations and exhibits high performance on SDOH tasks is an urgent problem. Here, we introduce an intelligent routing system for SDOH coding that uses a language model router to direct medical record data to open source LLMs that demonstrate optimal performance on specific SDOH codes. The intelligent routing system exhibits state of the art performance of 97.4% accuracy averaged across 5 codes, including homelessness and food insecurity, on par with closed models such as GPT-4o. In order to train the routing system and validate models, we also introduce a synthetic data generation and validation paradigm to increase the scale of training data without needing privacy protected medical records. Together, we demonstrate an architecture for intelligent routing of inputs to task-optimal language models to achieve high performance across a set of medical coding sub-tasks.
- Abstract(参考訳): SDOH(Social Determinants of Health)は、患者の健康に重要な役割を担っている。
Center of Disease Control (CDC)は、医療システムにおけるSDOHを公式に認識し測定するために、Zコードと呼ばれるICD-10コードの一部を導入した。
しかしながら、これらのコードは患者の電子健康記録(EHR)に注釈付けされることは稀であり、多くの場合、臨床記録から推測する必要がある。
従来の研究では、大規模言語モデル(LLM)は、EHRから非構造化データを抽出する可能性を示唆している。
しかしながら、ユニークなアーキテクチャとトレーニングセットから数千のモデルを選択すると、コーディングタスクで最高のパフォーマンスを発揮する1つのモデルを選択するのは困難です。
さらに、臨床ノートには、商用ベンダーからのクローズドソース言語モデルの使用を困難にしている信頼できる健康情報が含まれているため、保健機関内で実行でき、SDOHタスク上で高いパフォーマンスを示すオープンソースLLMの識別は緊急の問題である。
本稿では,言語モデルルータを用いたSDOH符号化のためのインテリジェントルーティングシステムを提案する。
インテリジェントルーティングシステムは、GPT-4oのようなクローズドモデルと同等の、ホームレスや食料の安全性を含む5つのコードで平均97.4%の精度で最先端のパフォーマンスを示す。
また、ルーティングシステムをトレーニングし、モデルを検証するために、プライバシ保護された医療記録を必要とせずに、トレーニングデータの規模を拡大する合成データ生成および検証パラダイムを導入する。
本稿では,タスク最適言語モデルに入力をインテリジェントにルーティングし,医療用符号化サブタスクのセット間で高い性能を実現するアーキテクチャを実証する。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。
FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文 参考訳(メタデータ) (2024-08-17T15:18:56Z) - HealthGAT: Node Classifications in Electronic Health Records using Graph Attention Networks [2.2026317523029193]
HealthGATは、EHRから埋め込みを生成するグラフアテンションネットワークフレームワークである。
本モデルでは,医療コードへの埋め込みを反復的に洗練し,EHRデータ解析の改善を実現している。
本モデルでは,ノード分類や,可読度予測や診断分類などの下流タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-26T22:17:01Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Automatic Coding at Scale: Design and Deployment of a Nationwide System
for Normalizing Referrals in the Chilean Public Healthcare System [0.0]
本稿では,チリの公共医療システムからの紹介で,疾患を自動的にコードする2段階のシステムを提案する。
具体的には,病名認識のための最新のNERモデルと,これらの疾患名に関連付けられた最も関連性の高いコードを割り当てるための検索エンジンシステムを用いている。
本システムでは,カテゴリレベルのMAPスコアが0.63,カテゴリレベルの0.83を得た。
論文 参考訳(メタデータ) (2023-07-09T16:19:35Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z) - Unifying Heterogenous Electronic Health Records Systems via Text-Based
Code Embedding [7.3394352452936085]
本稿では,コードに依存しない記述に基づく表現学習フレームワークであるDescEmbを紹介した。
予測タスクや伝達学習,プール学習など,さまざまな実験において,モデルの性能を検証した。
論文 参考訳(メタデータ) (2021-08-08T12:47:42Z) - TransICD: Transformer Based Code-wise Attention Model for Explainable
ICD Coding [5.273190477622007]
国際疾患分類法 (ICD) は, 医療分野の請求システムにおいて有効かつ重要であることが示されている。
現在、ICDコードは手動で臨床メモに割り当てられており、多くのエラーを引き起こす可能性がある。
本稿では,文書のトークン間の相互依存を捉えるためにトランスフォーマーベースのアーキテクチャを適用し,コードワイド・アテンション・メカニズムを用いて文書全体のコード固有表現を学習する。
論文 参考訳(メタデータ) (2021-03-28T05:34:32Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Explainable Automated Coding of Clinical Notes using Hierarchical
Label-wise Attention Networks and Label Embedding Initialisation [4.4036730220831535]
自動化医療符号化のためのディープラーニングに関する最近の研究は、有望なパフォーマンスを実現した。
本稿では,各ラベルに関連する単語や文の重要度(注意重みなど)を定量化し,モデルを解釈することを目的とした階層的ラベル・ワイド・アテンション・ネットワーク(HLAN)を提案する。
第2に,ラベル埋め込み(LE)初期化アプローチによる大規模深層学習モデルの拡張を提案する。これは,高密度かつ連続的なベクトル表現を学習し,その表現をモデル内の最終層とラベルの注意層に注入する。
論文 参考訳(メタデータ) (2020-10-29T16:21:26Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。