Fugu-MT 論文翻訳(概要): A comparative study of zero-shot inference with large language models and supervised modeling in breast cancer pathology classification

論文の概要: A comparative study of zero-shot inference with large language models and supervised modeling in breast cancer pathology classification

arxiv url: http://arxiv.org/abs/2401.13887v1
Date: Thu, 25 Jan 2024 02:05:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 15:58:30.951889
Title: A comparative study of zero-shot inference with large language models and supervised modeling in breast cancer pathology classification
Title（参考訳）: 乳がん病理分類における大言語モデルを用いたゼロショット推論と教師付きモデリングの比較検討
Authors: Madhumita Sushil, Travis Zack, Divneet Mandair, Zhiwei Zheng, Ahmed Wali, Yan-Ning Yu, Yuwei Quan, Atul J. Butte
Abstract要約: 大規模言語モデル(LLM)は、有望な伝達学習能力を実証している。 LLMは、大きな注釈付きデータセットをキュレートする必要性を減らし、臨床NLP研究の実行を高速化する可能性を実証した。これは、観察臨床研究におけるNLPに基づく変数の利用と結果の増加をもたらす可能性がある。
参考スコア（独自算出の注目度）: 1.4715634464004446
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Although supervised machine learning is popular for information extraction from clinical notes, creating large annotated datasets requires extensive domain expertise and is time-consuming. Meanwhile, large language models (LLMs) have demonstrated promising transfer learning capability. In this study, we explored whether recent LLMs can reduce the need for large-scale data annotations. We curated a manually-labeled dataset of 769 breast cancer pathology reports, labeled with 13 categories, to compare zero-shot classification capability of the GPT-4 model and the GPT-3.5 model with supervised classification performance of three model architectures: random forests classifier, long short-term memory networks with attention (LSTM-Att), and the UCSF-BERT model. Across all 13 tasks, the GPT-4 model performed either significantly better than or as well as the best supervised model, the LSTM-Att model (average macro F1 score of 0.83 vs. 0.75). On tasks with high imbalance between labels, the differences were more prominent. Frequent sources of GPT-4 errors included inferences from multiple samples and complex task design. On complex tasks where large annotated datasets cannot be easily collected, LLMs can reduce the burden of large-scale data labeling. However, if the use of LLMs is prohibitive, the use of simpler supervised models with large annotated datasets can provide comparable results. LLMs demonstrated the potential to speed up the execution of clinical NLP studies by reducing the need for curating large annotated datasets. This may result in an increase in the utilization of NLP-based variables and outcomes in observational clinical studies.
Abstract（参考訳）: 教師付き機械学習は臨床ノートからの情報抽出に人気があるが、大規模な注釈付きデータセットの作成には広範なドメイン専門知識が必要であり、時間を要する。一方、大きな言語モデル(LLM)は、有望な伝達学習能力を示している。本研究では,最近のLCMが大規模データアノテーションの必要性を軽減できるかどうかを検討した。 GPT-4モデルとGPT-3.5モデルのゼロショット分類能力とランダムフォレスト分類器(LSTM-Att)とUCSF-BERTモデル(UCSF-BERTモデル)の教師付き分類性能を比較するため,手動で769例の乳癌の病理診断結果のデータセットを作成した。 13のタスク全体にわたって、GPT-4モデルは最高の教師付きモデルであるLSTM-Attモデル(平均マクロF1スコアは0.83対0.75)よりも大幅に向上した。ラベル間の不均衡が高いタスクでは、違いが顕著だった。 GPT-4エラーの原因として、複数のサンプルからの推測や複雑なタスク設計があった。大きな注釈付きデータセットを簡単に収集できない複雑なタスクでは、LLMは大規模データラベリングの負担を軽減することができる。しかし、LLMの使用が禁止されている場合、大きな注釈付きデータセットを持つ単純な教師付きモデルを使用することで、同等の結果が得られる。 LLMは、大きな注釈付きデータセットをキュレートする必要性を減らし、臨床NLP研究の実行を高速化する可能性を実証した。これは、観察臨床研究におけるNLPに基づく変数の利用と結果の増加をもたらす可能性がある。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
In-Context Learning for Label-Efficient Cancer Image Classification in Oncology [1.741659712094955]
In-context Learning (ICL) は、ドメイン固有の診断タスクに対するモデル再トレーニングの実用的な代替手段である。視覚言語モデル(VLM)-Paligemma, CLIP, ALIGN, GPT-4o の評価を行った。 ICLは、サイズが小さいにもかかわらず競争力の向上を示し、計算に制約のある臨床環境への展開の可能性を示した。
論文参考訳（メタデータ） (2025-05-08T20:49:01Z)
Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文参考訳（メタデータ） (2025-03-19T12:51:52Z)
MedSlice: Fine-Tuned Large Language Models for Secure Clinical Note Sectioning [2.4060718165478376]
微調整のオープンソース LLM は、臨床ノートのセクションリングにおいて独自のモデルを上回ることができる。本研究は,現在病歴,インターバル歴史,アセスメント・アンド・プランの3つのセクションに焦点をあてる。
論文参考訳（メタデータ） (2025-01-23T21:32:09Z)
A Comparative Study of Recent Large Language Models on Generating Hospital Discharge Summaries for Lung Cancer Patients [19.777109737517996]
本研究の目的は,大規模言語モデル(LLM)が手動要約の負担を軽減することにある。本研究は, GPT-3.5, GPT-4, GPT-4o, LLaMA 3 8bを含む複数のLCMの放電サマリー生成性能について検討した。
論文参考訳（メタデータ） (2024-11-06T10:02:50Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
The Impact of LoRA Adapters for LLMs on Clinical NLP Classification Under Data Limitations [4.72457683445805]
臨床自然言語処理(NLP)のための微調整大型言語モデル(LLM)は、ドメインギャップと限られたデータ可用性のために大きな課題を提起する。本研究では,ローランド適応(LoRA)に準ずる各種アダプタ技術の有効性について検討する。我々は2つのTransformerベースのモデルとともに、CamemBERT-bio、AliBERT、DrBERTなどのバイオメディカル事前訓練モデルを微調整した。
論文参考訳（メタデータ） (2024-07-27T16:48:03Z)
Is larger always better? Evaluating and prompting large language models for non-generative medical tasks [11.799956298563844]
本研究は、GPTベースのLCM、BERTベースのモデル、従来の臨床予測モデルなど、さまざまなモデルをベンチマークする。我々は,寛容と予測,疾患階層再構築,生物医学的文章マッチングといった課題に焦点をあてた。その結果, LLMは, 適切に設計されたプロンプト戦略を用いて, 構造化EHRデータに対して頑健なゼロショット予測能力を示した。構造化されていない医療用テキストでは、LLMは細調整されたBERTモデルよりも優れておらず、教師なしタスクと教師なしタスクの両方に優れていた。
論文参考訳（メタデータ） (2024-07-26T06:09:10Z)
LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文参考訳（メタデータ） (2024-07-02T22:23:40Z)
Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。 LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文参考訳（メタデータ） (2024-03-27T22:05:10Z)
Minimally Supervised Learning using Topological Projections in Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-01-12T22:51:48Z)
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。 LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文参考訳（メタデータ） (2023-12-11T09:44:41Z)
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文参考訳（メタデータ） (2023-08-03T15:34:01Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
CancerGPT: Few-shot Drug Pair Synergy Prediction using Large Pre-trained Language Models [3.682742580232362]
大規模事前学習言語モデル(LLM)は、様々な分野にわたる数ショット学習において大きな可能性を秘めている。我々の研究は、限られたデータを持つまれな組織において、薬物対のシナジー予測に最初に取り組みました。
論文参考訳（メタデータ） (2023-04-18T02:49:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。