論文の概要: Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks
- arxiv url: http://arxiv.org/abs/2405.06695v1
- Date: Wed, 8 May 2024 03:18:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 20:41:54.791021
- Title: Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks
- Title(参考訳): 大規模言語モデルを用いた合成データ生成によるBERTニューラルネットワークの性能向上
- Authors: Chancellor R. Woolsey, Prakash Bisht, Joshua Rothman, Gondy Leroy,
- Abstract要約: 私たちは機械学習モデルをトレーニングするのに十分な規模のデータセットを作成しました。
私たちのゴールは自閉症の基準に対応する行動のラベル付けです。
データの増大はリコールを13%増加させたが、精度は16%低下した。
- 参考スコア(独自算出の注目度): 0.7071166713283337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important issue impacting healthcare is a lack of available experts. Machine learning (ML) models could resolve this by aiding in diagnosing patients. However, creating datasets large enough to train these models is expensive. We evaluated large language models (LLMs) for data creation. Using Autism Spectrum Disorders (ASD), we prompted ChatGPT and GPT-Premium to generate 4,200 synthetic observations to augment existing medical data. Our goal is to label behaviors corresponding to autism criteria and improve model accuracy with synthetic training data. We used a BERT classifier pre-trained on biomedical literature to assess differences in performance between models. A random sample (N=140) from the LLM-generated data was evaluated by a clinician and found to contain 83% correct example-label pairs. Augmenting data increased recall by 13% but decreased precision by 16%, correlating with higher quality and lower accuracy across pairs. Future work will analyze how different synthetic data traits affect ML outcomes.
- Abstract(参考訳): 医療に影響を及ぼす重要な問題は、利用可能な専門家の欠如である。
機械学習(ML)モデルは、患者の診断を支援することで、この問題を解決することができる。
しかし、これらのモデルをトレーニングするのに十分な規模のデータセットを作成するのはコストがかかる。
データ生成のための大規模言語モデル(LLM)を評価した。
自閉症スペクトラム障害 (ASD) を用いて, ChatGPT と GPT-Premium を刺激し,4,200 の合成観測を行い,既存の医療データを増強した。
我々の目標は、自閉症の基準に対応する行動のラベル付けと、合成トレーニングデータによるモデル精度の向上である。
生体医学文献で事前学習したBERT分類器を用いて,モデル間の性能差を評価した。
LLMデータから得られたランダムサンプル (N=140) は臨床医により評価され, 83%の正しいサンプルラベルペアが検出された。
データの増大はリコール率を13%向上させたが、精度を16%低下させた。
今後の研究は、異なる合成データ特性がML結果にどのように影響するかを分析する予定だ。
関連論文リスト
- Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data? [8.775988650381397]
医療ビジョン言語による事前トレーニングモデルのトレーニングには、ペアで高品質な画像テキストデータを備えたデータセットが必要である。
近年の大規模言語モデルの進歩により,大規模合成画像テキストペアの生成が可能になった。
多様な高品質な合成データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-17T13:11:07Z) - A Comparative Study of Hybrid Models in Health Misinformation Text Classification [0.43695508295565777]
本研究では、オンラインソーシャルネットワーク(OSN)上での新型コロナウイルス関連誤情報検出における機械学習(ML)モデルとディープラーニング(DL)モデルの有効性を評価する。
本研究は, 従来のMLアルゴリズムよりも, DLおよびハイブリッドDLモデルの方が, OSN上の新型コロナウイルスの誤情報を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2024-10-08T19:43:37Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - NLICE: Synthetic Medical Record Generation for Effective Primary
Healthcare Differential Diagnosis [0.765458997723296]
患者記録の作成には,SymCatという公衆疾患症状データソースを用いている。
合成データの表現性を高めるために,NLICEと呼ばれる医学標準化された症状モデリング手法を用いる。
予測疾患モデルをトレーニングするためのデータセットの有効性を示す。
論文 参考訳(メタデータ) (2024-01-24T19:17:45Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Large Language Models to Identify Social Determinants of Health in
Electronic Health Records [2.168737004368243]
健康の社会的決定因子(SDoH)は、患者の結果に重要な影響を与えるが、電子健康記録(EHR)から不完全に収集される。
本研究では,EHRにおける自由テキストからSDoHを抽出する大規模言語モデルについて検討した。
800の患者ノートをSDoHカテゴリーにアノテートし,いくつかのトランスフォーマーモデルを評価した。
論文 参考訳(メタデータ) (2023-08-11T19:18:35Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - A Generative Model to Synthesize EEG Data for Epileptic Seizure
Prediction [3.8271082752302137]
本稿では, 合成脳波サンプルを生成するための深層畳み込み生成対向ネットワークを提案する。
我々は合成データ、すなわち1クラスSVMと、畳み込みてんかん発作予測器(CESP)と呼ばれる新しい提案を2つの手法で検証する。
以上の結果から,CESPモデルでは78.11%,88.21%,FPR0.27/h,0.14/hの感度が得られた。
論文 参考訳(メタデータ) (2020-12-01T12:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。