論文の概要: A comparative study of zero-shot inference with large language models
and supervised modeling in breast cancer pathology classification
- arxiv url: http://arxiv.org/abs/2401.13887v1
- Date: Thu, 25 Jan 2024 02:05:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:58:30.951889
- Title: A comparative study of zero-shot inference with large language models
and supervised modeling in breast cancer pathology classification
- Title(参考訳): 乳がん病理分類における大言語モデルを用いたゼロショット推論と教師付きモデリングの比較検討
- Authors: Madhumita Sushil, Travis Zack, Divneet Mandair, Zhiwei Zheng, Ahmed
Wali, Yan-Ning Yu, Yuwei Quan, Atul J. Butte
- Abstract要約: 大規模言語モデル(LLM)は、有望な伝達学習能力を実証している。
LLMは、大きな注釈付きデータセットをキュレートする必要性を減らし、臨床NLP研究の実行を高速化する可能性を実証した。
これは、観察臨床研究におけるNLPに基づく変数の利用と結果の増加をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 1.4715634464004446
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although supervised machine learning is popular for information extraction
from clinical notes, creating large annotated datasets requires extensive
domain expertise and is time-consuming. Meanwhile, large language models (LLMs)
have demonstrated promising transfer learning capability. In this study, we
explored whether recent LLMs can reduce the need for large-scale data
annotations. We curated a manually-labeled dataset of 769 breast cancer
pathology reports, labeled with 13 categories, to compare zero-shot
classification capability of the GPT-4 model and the GPT-3.5 model with
supervised classification performance of three model architectures: random
forests classifier, long short-term memory networks with attention (LSTM-Att),
and the UCSF-BERT model. Across all 13 tasks, the GPT-4 model performed either
significantly better than or as well as the best supervised model, the LSTM-Att
model (average macro F1 score of 0.83 vs. 0.75). On tasks with high imbalance
between labels, the differences were more prominent. Frequent sources of GPT-4
errors included inferences from multiple samples and complex task design. On
complex tasks where large annotated datasets cannot be easily collected, LLMs
can reduce the burden of large-scale data labeling. However, if the use of LLMs
is prohibitive, the use of simpler supervised models with large annotated
datasets can provide comparable results. LLMs demonstrated the potential to
speed up the execution of clinical NLP studies by reducing the need for
curating large annotated datasets. This may result in an increase in the
utilization of NLP-based variables and outcomes in observational clinical
studies.
- Abstract(参考訳): 教師付き機械学習は臨床ノートからの情報抽出に人気があるが、大規模な注釈付きデータセットの作成には広範なドメイン専門知識が必要であり、時間を要する。
一方、大きな言語モデル(LLM)は、有望な伝達学習能力を示している。
本研究では,最近のLCMが大規模データアノテーションの必要性を軽減できるかどうかを検討した。
GPT-4モデルとGPT-3.5モデルのゼロショット分類能力とランダムフォレスト分類器(LSTM-Att)とUCSF-BERTモデル(UCSF-BERTモデル)の教師付き分類性能を比較するため,手動で769例の乳癌の病理診断結果のデータセットを作成した。
13のタスク全体にわたって、GPT-4モデルは最高の教師付きモデルであるLSTM-Attモデル(平均マクロF1スコアは0.83対0.75)よりも大幅に向上した。
ラベル間の不均衡が高いタスクでは、違いが顕著だった。
GPT-4エラーの原因として、複数のサンプルからの推測や複雑なタスク設計があった。
大きな注釈付きデータセットを簡単に収集できない複雑なタスクでは、LLMは大規模データラベリングの負担を軽減することができる。
しかし、LLMの使用が禁止されている場合、大きな注釈付きデータセットを持つ単純な教師付きモデルを使用することで、同等の結果が得られる。
LLMは、大きな注釈付きデータセットをキュレートする必要性を減らし、臨床NLP研究の実行を高速化する可能性を実証した。
これは、観察臨床研究におけるNLPに基づく変数の利用と結果の増加をもたらす可能性がある。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。
本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-26T03:56:21Z) - Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。
我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。
LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文 参考訳(メタデータ) (2024-03-27T22:05:10Z) - Identifying Factual Inconsistencies in Summaries: Grounding Model Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - CancerGPT: Few-shot Drug Pair Synergy Prediction using Large Pre-trained
Language Models [3.682742580232362]
大規模事前学習言語モデル(LLM)は、様々な分野にわたる数ショット学習において大きな可能性を秘めている。
我々の研究は、限られたデータを持つまれな組織において、薬物対のシナジー予測に最初に取り組みました。
論文 参考訳(メタデータ) (2023-04-18T02:49:53Z) - CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection [36.08551407926805]
本稿では,Contrastive Language-Image Pre-trainingから学習したテキストをセグメンテーションモデルに組み込んだCLIP駆動ユニバーサルモデルを提案する。
提案モデルは14のデータセットから作成され、合計3,410個のCTスキャンを使用してトレーニングを行い、さらに3つの追加データセットから6,162個の外部CTスキャンで評価する。
論文 参考訳(メタデータ) (2023-01-02T18:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。