論文の概要: Two Directions for Clinical Data Generation with Large Language Models:
Data-to-Label and Label-to-Data
- arxiv url: http://arxiv.org/abs/2401.06774v1
- Date: Sat, 9 Dec 2023 19:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 12:40:10.984607
- Title: Two Directions for Clinical Data Generation with Large Language Models:
Data-to-Label and Label-to-Data
- Title(参考訳): 大規模言語モデルを用いた臨床データ生成のための2つの方向--data-to-labelと label-to-data
- Authors: Rumeng Li, Xun Wang, Hong Yu
- Abstract要約: 大型言語モデル(LLM)がアルツハイマー病(AD)関連徴候や症状を検出する臨床データを増強できるかどうかを検討する。
専門知識に基づくADサインと症状進行のための新しい実用的な分類法を作成する。
3つのデータセットを用いてAD関連徴候と症状をEHRから検出するシステムを訓練する。
- 参考スコア(独自算出の注目度): 17.67978817515676
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models (LLMs) can generate natural language texts for various
domains and tasks, but their potential for clinical text mining, a domain with
scarce, sensitive, and imbalanced medical data, is underexplored. We
investigate whether LLMs can augment clinical data for detecting Alzheimer's
Disease (AD)-related signs and symptoms from electronic health records (EHRs),
a challenging task that requires high expertise. We create a novel pragmatic
taxonomy for AD sign and symptom progression based on expert knowledge, which
guides LLMs to generate synthetic data following two different directions:
"data-to-label", which labels sentences from a public EHR collection with
AD-related signs and symptoms; and "label-to-data", which generates sentences
with AD-related signs and symptoms based on the label definition. We train a
system to detect AD-related signs and symptoms from EHRs, using three datasets:
(1) a gold dataset annotated by human experts on longitudinal EHRs of AD
patients; (2) a silver dataset created by the data-to-label method; and (3) a
bronze dataset created by the label-to-data method. We find that using the
silver and bronze datasets improves the system performance, outperforming the
system using only the gold dataset. This shows that LLMs can generate synthetic
clinical data for a complex task by incorporating expert knowledge, and our
label-to-data method can produce datasets that are free of sensitive
information, while maintaining acceptable quality.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なドメインやタスクのための自然言語テキストを生成することができるが、臨床テキストマイニングの可能性は乏しく、敏感で、不均衡な医療データを持つ領域である。
高度に専門知識を必要とする課題である電子健康記録(EHR)からアルツハイマー病関連徴候や症状を検出するための臨床データを増やすことができるかを検討する。
我々は,AD関連徴候と症状を付した文を生成する「data-to-label」と,そのラベル定義に基づいてAD関連徴候と症状を生成する「label-to-data」という,2つの異なる方向の合成データを生成するための専門知識に基づく,AD関連徴候と症状進行のための新しい実用的な分類法を作成する。
本研究は,ヒトの専門家がad患者の縦型eersにアノテートした金のデータセット,データ・ツー・ラベル法で作成した銀のデータセット,ラベル・ツー・データ法で作成した青銅のデータセットの3つのデータセットを用いて,eersから広告関連サインや症状を検出するシステムを訓練する。
銀と青銅のデータセットを使用することでシステム性能が向上し、金のデータセットのみを用いてシステムのパフォーマンスが向上することがわかった。
このことは,LSMが専門知識を取り入れた複雑なタスクのための合成臨床データを生成できることを示し,ラベル・トゥ・データ法は,機密情報のないデータセットを生成できると同時に,許容品質を維持していることを示す。
関連論文リスト
- Automated Annotation of Scientific Texts for ML-based Keyphrase
Extraction and Validation [0.0]
ラベルなしテキストに対するML生成メタデータの検証のための2つの新しいテキストラベリング手法を提案する。
本手法は,未ラベルテキストと科学領域に関する既存の情報を活用する2つの新しい手法の可能性を示す。
論文 参考訳(メタデータ) (2023-11-08T22:09:31Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Weakly Supervised Anomaly Detection: A Survey [75.26180038443462]
異常検出(AD)は、さまざまなアプリケーションによる機械学習において重要なタスクである。
弱教師付き異常検出法(WSAD)の総合的な調査を行った。
各設定に対して、正式な定義、鍵アルゴリズム、潜在的な将来の方向性を提供する。
論文 参考訳(メタデータ) (2023-02-09T10:27:21Z) - Gradient Imitation Reinforcement Learning for General Low-Resource
Information Extraction [80.64518530825801]
本研究では,ラベル付きデータに対する勾配降下方向を模倣するために擬似ラベル付きデータを奨励するグラディエント強化学習法(GIRL)を開発した。
GIRLを利用して、低リソース設定ですべてのIEサブタスク(エンティティ認識、関係抽出、イベント抽出)を解決します。
論文 参考訳(メタデータ) (2022-11-11T05:37:19Z) - Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文 参考訳(メタデータ) (2021-09-19T18:50:45Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Benchmarking Modern Named Entity Recognition Techniques for Free-text
Health Record De-identification [6.026640792312181]
連邦法は、保護された健康情報(PHI)を含むEHRデータの共有を制限する。
本研究は, 深層学習に基づく名前付きエンティティ認識(NER)手法を探索し, 識別タスクにおいてどのメソッドがより優れているかを判定する。
i2b2トレーニングデータセットでモデルをトレーニング,テストし,地域病院から収集したEHRデータを用いて,そのパフォーマンスを質的に評価した。
論文 参考訳(メタデータ) (2021-03-25T01:26:58Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Uncovering the structure of clinical EEG signals with self-supervised
learning [64.4754948595556]
教師付き学習パラダイムは、しばしば利用可能なラベル付きデータの量によって制限される。
この現象は脳波(EEG)などの臨床関連データに特に問題となる。
ラベルのないデータから情報を抽出することで、ディープニューラルネットワークとの競合性能に到達することができるかもしれない。
論文 参考訳(メタデータ) (2020-07-31T14:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。