論文の概要: Medical Data Augmentation via ChatGPT: A Case Study on Medication
Identification and Medication Event Classification
- arxiv url: http://arxiv.org/abs/2306.07297v1
- Date: Sat, 10 Jun 2023 20:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 16:26:13.291098
- Title: Medical Data Augmentation via ChatGPT: A Case Study on Medication
Identification and Medication Event Classification
- Title(参考訳): chatgptによる医療データ拡張:医薬品の識別と薬剤イベントの分類に関する事例研究
- Authors: Shouvon Sarker, Lijun Qian, Xishuang Dong
- Abstract要約: 2022年のN2C2コンクールでは、電子健康記録の重要な要因の特定を促進するために様々なタスクが提示された。
事前訓練された大規模言語モデル (LLM) はこれらのタスクにおいて例外的な性能を示した。
本研究の目的は、注釈付きデータの限られた可用性を克服するために、データ拡張のためのLCM(特にChatGPT)の利用を検討することである。
- 参考スコア(独自算出の注目度): 2.980018103007841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The identification of key factors such as medications, diseases, and
relationships within electronic health records and clinical notes has a wide
range of applications in the clinical field. In the N2C2 2022 competitions,
various tasks were presented to promote the identification of key factors in
electronic health records (EHRs) using the Contextualized Medication Event
Dataset (CMED). Pretrained large language models (LLMs) demonstrated
exceptional performance in these tasks. This study aims to explore the
utilization of LLMs, specifically ChatGPT, for data augmentation to overcome
the limited availability of annotated data for identifying the key factors in
EHRs. Additionally, different pre-trained BERT models, initially trained on
extensive datasets like Wikipedia and MIMIC, were employed to develop models
for identifying these key variables in EHRs through fine-tuning on augmented
datasets. The experimental results of two EHR analysis tasks, namely medication
identification and medication event classification, indicate that data
augmentation based on ChatGPT proves beneficial in improving performance for
both medication identification and medication event classification.
- Abstract(参考訳): 電子カルテや臨床ノートにおける薬剤、疾患、関係などの重要な要因の同定は、臨床分野において幅広い応用がある。
N2C2 2022コンペティションでは、コンテキスト化メディケーションイベントデータセット(CMED)を用いた電子健康記録(EHR)の重要な要素の同定を促進するために、様々なタスクが提示された。
事前訓練された大規模言語モデル (LLM) はこれらのタスクにおいて例外的な性能を示した。
本研究の目的は,ALM(特にChatGPT)をデータ拡張に利用し,注釈付きデータの限られた可用性を克服し,EHRの重要な要素を特定することである。
さらに、ウィキペディアやMIMICのような広範なデータセットでトレーニングされたさまざまな事前トレーニングされたBERTモデルを使用して、統合データセットの微調整を通じて、EHRにおけるこれらの重要な変数を識別するモデルを開発した。
薬物識別と薬物イベント分類という2つの EHR 分析タスクの実験結果から,ChatGPT に基づくデータ拡張は,薬物識別と薬物イベント分類の両方のパフォーマンス向上に有効であることが示唆された。
関連論文リスト
- Large Language Model Benchmarks in Medical Tasks [11.196196955468992]
本稿では,医療用大規模言語モデル(LLM)タスクに使用される様々なベンチマークデータセットについて調査する。
調査では、データセットをモダリティで分類し、その重要性、データ構造、LLMの開発への影響について論じている。
この論文は、言語多様性、構造化オミクスデータ、および合成に対する革新的なアプローチを含むデータセットの必要性を強調している。
論文 参考訳(メタデータ) (2024-10-28T11:07:33Z) - FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。
FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文 参考訳(メタデータ) (2024-08-17T15:18:56Z) - Evaluating the Fairness of the MIMIC-IV Dataset and a Baseline
Algorithm: Application to the ICU Length of Stay Prediction [65.268245109828]
本稿では、MIMIC-IVデータセットを用いて、滞在時間を予測するXGBoostバイナリ分類モデルにおける公平性とバイアスについて検討する。
この研究は、人口統計属性にわたるデータセットのクラス不均衡を明らかにし、データ前処理と特徴抽出を採用する。
この論文は、偏見を緩和するための公正な機械学習技術と、医療専門家とデータサイエンティストの協力的な努力の必要性について結論付けている。
論文 参考訳(メタデータ) (2023-12-31T16:01:48Z) - Time Associated Meta Learning for Clinical Prediction [78.99422473394029]
本稿では,時間関連メタラーニング(TAML)手法を提案する。
タスク分割後のスパーシリティ問題に対処するため、TAMLは時間情報共有戦略を採用し、正のサンプル数を増やす。
複数の臨床データセットに対するTAMLの有効性を示す。
論文 参考訳(メタデータ) (2023-03-05T03:54:54Z) - sEHR-CE: Language modelling of structured EHR data for efficient and
generalizable patient cohort expansion [0.0]
sEHR-CEは、異種臨床データセットの統合表現型化と分析を可能にするトランスフォーマーに基づく新しいフレームワークである。
大規模研究である英国バイオバンクのプライマリ・セカンダリ・ケアデータを用いてアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-30T16:00:43Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - DICE: Data-Efficient Clinical Event Extraction with Generative Models [93.49354508621232]
臨床領域のイベント抽出は、未調査の研究領域である。
臨床イベント抽出のための堅牢でデータ効率の良い生成モデルであるDICEを紹介する。
臨床およびニュース領域イベント抽出におけるDICEの最先端性能について実験を行った。
論文 参考訳(メタデータ) (2022-08-16T23:12:04Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - Disability prediction in multiple sclerosis using performance outcome
measures and demographic data [8.85999610143128]
我々は,多次元,手頃な,物理的,スマートフォンによるパフォーマンス評価尺度(POM)を,人口統計と併用して,疾患の進行を予測する。
我々の知る限りでは、POMと人口統計データを用いて病気の進行を予測することが可能であることを初めて示す。
論文 参考訳(メタデータ) (2022-04-08T09:57:00Z) - How to Leverage Multimodal EHR Data for Better Medical Predictions? [13.401754962583771]
電子健康記録(EHR)データの複雑さは、ディープラーニングの適用の課題である。
本稿では,まずEHRから臨床ノートを抽出し,これらのデータを統合する方法を提案する。
2つの医療予測タスクの結果、異なるデータを持つ融合モデルが最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-10-29T13:26:05Z) - ODVICE: An Ontology-Driven Visual Analytic Tool for Interactive Cohort
Extraction [2.0131681387862153]
一般的な疾患では、EHRから抽出されたコホートは非常に限られた数の記録を含んでいる。
本稿では,モンテカルログラフスパンニングアルゴリズムを用いたデータ拡張フレームワークODVICEを提案する。
以上の結果から, ODVICE拡張コーホートの予測性能は, 非拡張データセットよりも曲線下面積(AUC)が30%向上していることが示唆された。
論文 参考訳(メタデータ) (2020-05-13T17:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。