論文の概要: DALL-M: Context-Aware Clinical Data Augmentation with LLMs
- arxiv url: http://arxiv.org/abs/2407.08227v1
- Date: Thu, 11 Jul 2024 07:01:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 18:39:04.609817
- Title: DALL-M: Context-Aware Clinical Data Augmentation with LLMs
- Title(参考訳): DALL-M:LLMを用いたコンテキスト対応臨床データ拡張
- Authors: Chihcheng Hsieh, Catarina Moreira, Isabel Blanco Nobre, Sandra Costa Sousa, Chun Ouyang, Margot Brereton, Joaquim Jorge, Jacinto C. Nascimento,
- Abstract要約: 臨床データを用いた拡張技術により臨床コンテキストを向上する新しい手法を提案する。
本稿では,大言語モデル(LLM)を用いて患者コンテキスト合成データを生成する臨床データ拡張の先駆的アプローチを提案する。
この方法論は、医療におけるより堅牢なディープラーニングモデルのトレーニングに不可欠です。
- 参考スコア(独自算出の注目度): 13.827368628263997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: X-ray images are vital in medical diagnostics, but their effectiveness is limited without clinical context. Radiologists often find chest X-rays insufficient for diagnosing underlying diseases, necessitating comprehensive clinical features and data integration. We present a novel technique to enhance the clinical context through augmentation techniques with clinical tabular data, thereby improving its applicability and reliability in AI medical diagnostics. To address this, we introduce a pioneering approach to clinical data augmentation that employs large language models (LLMs) to generate patient contextual synthetic data. This methodology is crucial for training more robust deep learning models in healthcare. It preserves the integrity of real patient data while enriching the dataset with contextually relevant synthetic features, significantly enhancing model performance. DALL-M uses a three-phase feature generation process: (i) clinical context storage, (ii) expert query generation, and (iii) context-aware feature augmentation. DALL-M generates new, clinically relevant features by synthesizing chest X-ray images and reports. Applied to 799 cases using nine features from the MIMIC-IV dataset, it created an augmented set of 91 features. This is the first work to generate contextual values for existing and new features based on patients' X-ray reports, gender, and age and to produce new contextual knowledge during data augmentation. Empirical validation with machine learning models, including Decision Trees, Random Forests, XGBoost, and TabNET, showed significant performance improvements. Incorporating augmented features increased the F1 score by 16.5% and Precision and Recall by approximately 25%. DALL-M addresses a critical gap in clinical data augmentation, offering a robust framework for generating contextually enriched datasets.
- Abstract(参考訳): X線画像は医療診断において不可欠であるが、臨床的文脈なしでは有効性は限られている。
放射線医は、基礎疾患の診断、包括的臨床特徴の必要、およびデータ統合に不十分な胸部X線をしばしば見出す。
本稿では,臨床表型データによる拡張技術により臨床コンテキストを向上し,AI診断における適用性と信頼性を向上させる新しい手法を提案する。
そこで我々は,大言語モデル(LLM)を用いて患者コンテキスト合成データを生成する臨床データ拡張の先駆的アプローチを提案する。
この方法論は、医療におけるより堅牢なディープラーニングモデルのトレーニングに不可欠です。
実際の患者データの整合性を保ちつつ、文脈に関連のある合成機能でデータセットを充実させ、モデル性能を大幅に向上させる。
DALL-Mは3相特徴生成プロセスを使用する。
(i)臨床用文脈記憶装置
(ii)エキスパートクエリ生成、および
(iii)文脈認識機能拡張。
DALL-Mは胸部X線像と報告を合成することにより、臨床的に新しい特徴を生み出す。
MIMIC-IVデータセットの9つの特徴を使用して799のケースに適用された。
これは、患者のX線レポート、性別、年齢に基づいて、既存および新機能のコンテキスト値を生成し、データ拡張中に新しいコンテキスト知識を生成する最初の研究である。
Decision Trees、Random Forests、XGBoost、TabNETなど、機械学習モデルによる実証的な検証は、大幅なパフォーマンス向上を示した。
F1のスコアは16.5%、精度とリコールは25%向上した。
DALL-Mは臨床データ拡張における重要なギャップに対処し、コンテキストに富んだデータセットを生成するための堅牢なフレームワークを提供する。
関連論文リスト
- Generative AI for Synthetic Data Across Multiple Medical Modalities: A Systematic Review of Recent Developments and Challenges [2.1835659964186087]
本稿では,様々な医療データ型を合成するための生成モデルについて,体系的に検討する。
本研究は、幅広い医療データモダリティを包含し、様々な生成モデルについて検討する。
論文 参考訳(メタデータ) (2024-06-27T14:00:11Z) - The Impact of Auxiliary Patient Data on Automated Chest X-Ray Report Generation and How to Incorporate It [12.61239008314719]
本研究は,胸部X線自動レポート生成のための多モーダル言語モデルへの多様な患者データソースの統合について検討する。
MIMIC-CXRおよびMIMIC-IV-EDデータセットを用いて, 診断精度を高めるために, バイタルサイン周期, 医薬, 臨床歴などの詳細な患者情報を組み込んだ。
論文 参考訳(メタデータ) (2024-06-19T03:25:31Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Knowledge Graph Representations to enhance Intensive Care Time-Series
Predictions [4.660203987415476]
提案手法は,ICUデータと医療知識を統合し,臨床意思決定モデルを改善する。
グラフ表現とバイタルサインと臨床報告を組み合わせることで、パフォーマンスを向上させる。
我々のモデルには、知識グラフノードが予測にどのように影響するかを理解するための解釈可能性コンポーネントが含まれています。
論文 参考訳(メタデータ) (2023-11-13T09:11:55Z) - TRIALSCOPE: A Unifying Causal Framework for Scaling Real-World Evidence
Generation with Biomedical Language Models [22.046231408373522]
観測データから実世界の証拠を抽出する統合フレームワークであるTRIALSCOPEについて述べる。
TRIALSCOPEは実世界のデータの高品質な構造化を可能とし,マーキーがん検診に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-11-02T15:15:47Z) - Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data
Generation with Large Language Models [48.07083163501746]
臨床自然言語処理には、ドメイン固有の課題に対処できる方法が必要である。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - MDF-Net for abnormality detection by fusing X-rays with clinical data [14.347359031598813]
本研究は,患者の臨床情報が深層学習(DL)分類器の性能に及ぼす影響について検討した。
患者の臨床データと胸部X線を同時に処理できる2つの融合法からなる新しいアーキテクチャを提案する。
その結果, 患者の臨床データをDLモデルに組み込むことで, 胸部X線像の病的局在を平均精度で12%改善できることがわかった。
論文 参考訳(メタデータ) (2023-02-26T19:16:57Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。