論文の概要: Does Synthetic Data Generation of LLMs Help Clinical Text Mining?
- arxiv url: http://arxiv.org/abs/2303.04360v1
- Date: Wed, 8 Mar 2023 03:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:09:20.141805
- Title: Does Synthetic Data Generation of LLMs Help Clinical Text Mining?
- Title(参考訳): LLMの合成データ生成は臨床テキストマイニングに役立つか?
- Authors: Ruixiang Tang, Xiaotian Han, Xiaoqian Jiang, Xia Hu
- Abstract要約: 臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 51.205078179427645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have led to the
development of highly potent models like OpenAI's ChatGPT. These models have
exhibited exceptional performance in a variety of tasks, such as question
answering, essay composition, and code generation. However, their effectiveness
in the healthcare sector remains uncertain. In this study, we seek to
investigate the potential of ChatGPT to aid in clinical text mining by
examining its ability to extract structured information from unstructured
healthcare texts, with a focus on biological named entity recognition and
relation extraction. However, our preliminary results indicate that employing
ChatGPT directly for these tasks resulted in poor performance and raised
privacy concerns associated with uploading patients' information to the ChatGPT
API. To overcome these limitations, we propose a new training paradigm that
involves generating a vast quantity of high-quality synthetic data with labels
utilizing ChatGPT and fine-tuning a local model for the downstream task. Our
method has resulted in significant improvements in the performance of
downstream tasks, improving the F1-score from 23.37% to 63.99% for the named
entity recognition task and from 75.86% to 83.59% for the relation extraction
task. Furthermore, generating data using ChatGPT can significantly reduce the
time and effort required for data collection and labeling, as well as mitigate
data privacy concerns. In summary, the proposed framework presents a promising
solution to enhance the applicability of LLM models to clinical text mining.
- Abstract(参考訳): 近年の大規模言語モデル(llm)の発展は、openaiのchatgptのような強力なモデルの開発につながった。
これらのモデルは、質問応答、エッセイ構成、コード生成など、さまざまなタスクで例外的なパフォーマンスを示している。
しかし、医療分野での効果はいまだに不明である。
本研究では,ChatGPTが臨床テキストマイニングに有効である可能性を検討するために,非構造化医療用テキストから構造化情報を抽出する能力について検討し,生物名の実体認識と関係抽出に焦点をあてる。
しかし,これらのタスクにChatGPTを直接利用するとパフォーマンスが低下し,ChatGPT APIに患者の情報をアップロードする際のプライバシー上の懸念が高まった。
これらの制約を克服するために,chatgptを利用したラベル付き高品質合成データ生成と,下流タスクの局所モデルを微調整する新たなトレーニングパラダイムを提案する。
提案手法は,f1-scoreの性能を23.37%から63.99%に改善し,75.86%から83.59%に改善した。
さらに、ChatGPTを使用したデータ生成は、データ収集とラベル付けに必要な時間と労力を大幅に削減し、データのプライバシの懸念を軽減する。
要約して,本フレームワークは臨床用テキストマイニングへのLLMモデルの適用性を高めるための有望なソリューションを提供する。
関連論文リスト
- Discover, Explanation, Improvement: Automatic Slice Detection Framework
for Natural Language Processing [65.63380943075745]
「発見、説明、改善」フレームワークは、データポイントの一貫性と性能の低いグループを発見する。
我々のフレームワークは、エラーパターンを要約する情報的意味的特徴によって、エラーを起こしやすいデータポイントを正確に選択できる。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - KnowDA: All-in-One Knowledge Mixture Model for Data Augmentation in
Few-Shot NLP [68.43279384561352]
既存のデータ拡張アルゴリズムはタスク非依存のルールや微調整の汎用事前訓練言語モデルを利用する。
これらの手法は、簡単なタスク固有の知識を持ち、単純なタスクにおいて弱いベースラインのための低品質な合成データを得るに限られる。
我々は,様々なNLPタスクを予め学習したエンコーダ/デコーダLMの知識混合データ拡張モデル(KnowDA)を提案する。
論文 参考訳(メタデータ) (2022-06-21T11:34:02Z) - Sample Efficient Approaches for Idiomaticity Detection [6.481818246474555]
本研究は, 慣用性検出の効率的な手法を探索する。
特に,いくつかの分類法であるPET(Pattern Exploit Training)と,文脈埋め込みの効率的な方法であるBERTRAM(BERTRAM)の影響について検討した。
実験の結果,PETは英語のパフォーマンスを向上するが,ポルトガル語やガリシア語では効果が低下し,バニラmBERTと同程度の総合的な性能が得られた。
論文 参考訳(メタデータ) (2022-05-23T13:46:35Z) - A Semi-Supervised Deep Clustering Pipeline for Mining Intentions From
Texts [6.599344783327053]
Verint Manager Intent(VIM)は、教師なしおよび半教師なしのアプローチを組み合わせた分析プラットフォームで、アナリストが会話テキストから関連するユーザの意図を素早く分析し整理するのに役立つ。
データの最初の探索には、ハイパフォーマンスな言語モデルの微調整を統合する、教師なしで半教師なしのパイプラインを使用します。
BERTはタスクデータの0.5%のラベル付きサブセットを使用して、より優れたタスク認識表現を生成する。
論文 参考訳(メタデータ) (2022-02-01T23:01:05Z) - Adding more data does not always help: A study in medical conversation
summarization with PEGASUS [5.276054618115727]
PEGを用いた転帰学習医療会話要約におけるデータセットサイズの影響について検討した。
また,分類環境での成功を受けて,低データ体制における様々な反復的なラベル付け戦略の評価を行った。
我々の研究は、医療会話要約への分類における低データ体制技術の導入の成功と課題に光を当てている。
論文 参考訳(メタデータ) (2021-11-15T07:27:35Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - Improving Limited Labeled Dialogue State Tracking with Self-Supervision [91.68515201803986]
既存の対話状態追跡(DST)モデルには多くのラベル付きデータが必要である。
本稿では,潜在的一貫性の維持と対話行動のモデル化という,自己指導型の2つの目的について検討する。
提案する自己教師型信号は,1%のラベル付きデータのみを使用する場合,関節ゴール精度を8.95%向上させることができる。
論文 参考訳(メタデータ) (2020-10-26T21:57:42Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。