論文の概要: Does Synthetic Data Generation of LLMs Help Clinical Text Mining?
- arxiv url: http://arxiv.org/abs/2303.04360v2
- Date: Mon, 10 Apr 2023 18:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 18:02:59.003141
- Title: Does Synthetic Data Generation of LLMs Help Clinical Text Mining?
- Title(参考訳): LLMの合成データ生成は臨床テキストマイニングに役立つか?
- Authors: Ruixiang Tang, Xiaotian Han, Xiaoqian Jiang, Xia Hu
- Abstract要約: 臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 51.205078179427645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have led to the
development of highly potent models like OpenAI's ChatGPT. These models have
exhibited exceptional performance in a variety of tasks, such as question
answering, essay composition, and code generation. However, their effectiveness
in the healthcare sector remains uncertain. In this study, we seek to
investigate the potential of ChatGPT to aid in clinical text mining by
examining its ability to extract structured information from unstructured
healthcare texts, with a focus on biological named entity recognition and
relation extraction. However, our preliminary results indicate that employing
ChatGPT directly for these tasks resulted in poor performance and raised
privacy concerns associated with uploading patients' information to the ChatGPT
API. To overcome these limitations, we propose a new training paradigm that
involves generating a vast quantity of high-quality synthetic data with labels
utilizing ChatGPT and fine-tuning a local model for the downstream task. Our
method has resulted in significant improvements in the performance of
downstream tasks, improving the F1-score from 23.37% to 63.99% for the named
entity recognition task and from 75.86% to 83.59% for the relation extraction
task. Furthermore, generating data using ChatGPT can significantly reduce the
time and effort required for data collection and labeling, as well as mitigate
data privacy concerns. In summary, the proposed framework presents a promising
solution to enhance the applicability of LLM models to clinical text mining.
- Abstract(参考訳): 近年の大規模言語モデル(llm)の発展は、openaiのchatgptのような強力なモデルの開発につながった。
これらのモデルは、質問応答、エッセイ構成、コード生成など、さまざまなタスクで例外的なパフォーマンスを示している。
しかし、医療分野での効果はいまだに不明である。
本研究では,ChatGPTが臨床テキストマイニングに有効である可能性を検討するために,非構造化医療用テキストから構造化情報を抽出する能力について検討し,生物名の実体認識と関係抽出に焦点をあてる。
しかし,これらのタスクにChatGPTを直接利用するとパフォーマンスが低下し,ChatGPT APIに患者の情報をアップロードする際のプライバシー上の懸念が高まった。
これらの制約を克服するために,chatgptを利用したラベル付き高品質合成データ生成と,下流タスクの局所モデルを微調整する新たなトレーニングパラダイムを提案する。
提案手法は,f1-scoreの性能を23.37%から63.99%に改善し,75.86%から83.59%に改善した。
さらに、ChatGPTを使用したデータ生成は、データ収集とラベル付けに必要な時間と労力を大幅に削減し、データのプライバシの懸念を軽減する。
要約して,本フレームワークは臨床用テキストマイニングへのLLMモデルの適用性を高めるための有望なソリューションを提供する。
関連論文リスト
- Leveraging ChatGPT in Pharmacovigilance Event Extraction: An Empirical
Study [38.555547784219115]
本研究の目的は,大規模言語モデル,特にChatGPTの薬物移動イベント抽出における能力を検討することである。
薬物移動イベント抽出タスクにおけるChatGPTの性能を評価するための広範囲な実験を行った。
合成データを微調整に組み込むことは、ChatGPT生成ラベルのノイズに起因する可能性があるため、性能の低下につながる可能性がある。
論文 参考訳(メタデータ) (2024-02-24T00:38:29Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Chatbots Are Not Reliable Text Annotators [0.0]
ChatGPTはクローズドソース製品で、透明性、コスト、データ保護に関して大きな欠点があります。
オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの課題を解決する代替手段を提供する。
論文 参考訳(メタデータ) (2023-11-09T22:28:14Z) - CohortGPT: An Enhanced GPT for Participant Recruitment in Clinical Study [17.96401880059829]
ChatGPTのような大規模言語モデル(LLM)は、様々な下流タスクで大きな成功を収めています。
我々は,知識グラフを補助情報として,予測を行う際のLCMを導くことを提案する。
本手法は, 微調整手法と比較して, 良好な性能が得られる。
論文 参考訳(メタデータ) (2023-07-21T04:43:00Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark
Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。
具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文 参考訳(メタデータ) (2023-05-29T12:37:21Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT [2.320417845168326]
本稿では,大規模な生成言語モデルであるChatGPTから得られたデータを用いて,低リソースシナリオにおけるデータ拡張を目的とした合成トレーニングデータを生成する。
タスク固有のChatGPTプロンプトによって、そのようなデータ拡張に対して最も一般的なアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:07:29Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。