論文の概要: On Cross-Domain Pre-Trained Language Models for Clinical Text Mining:
How Do They Perform on Data-Constrained Fine-Tuning?
- arxiv url: http://arxiv.org/abs/2210.12770v3
- Date: Sat, 21 Oct 2023 19:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 14:36:32.429047
- Title: On Cross-Domain Pre-Trained Language Models for Clinical Text Mining:
How Do They Perform on Data-Constrained Fine-Tuning?
- Title(参考訳): 臨床テキストマイニングのためのクロスドメイン事前学習言語モデルについて:データ制約ファインチューニングでどのように機能するか?
- Authors: Samuel Belkadi and Lifeng Han and Yuping Wu and Valerio Antonini and
Goran Nenadic
- Abstract要約: 汎用または関連するドメインデータから特定のドメインやタスクに事前訓練された細調整の大規模言語モデル(LLM)は、NLPフィールドで一般的なプラクティスである。
我々は,BERTベース,BioBERT,クリニカルBERTなど,スクラッチから学習したTransformerモデルと細調整BERTベースのLLMを比較した。
実験結果から, 1) CRF層は, 全神経モデルに対して, 2) マクロ平均F1を用いたBIO制限スパンレベル評価において, 微調整LDMは0.83以上のスコアを得た。
- 参考スコア(独自算出の注目度): 6.33248608477524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fine-tuning Large Language Models (LLMs) pre-trained from general or related
domain data to a specific domain and task using a limited amount of resources
available in the new task has been a popular practice in NLP fields. In this
work, we re-visit this assumption, and carry out investigation in clinical NLP,
specifically named-entity recognition on Drugs and their related Attributes. We
compare Transformer models that are learned from scratch to fine-tuning
BERT-based LLMs including BERT-base, BioBERT, and ClinicalBERT. We also
investigate the comparison of such models and their extended models with a CRF
layer for continuous learning. We use n2c2-2018 shared task data for model
development and evaluations. The experimental outcomes show that 1) the CRF
layer makes a difference for all neural models; 2) on BIO-strict span level
evaluation using macro-average F1, while the fine-tuned LLMs achieved scores
0.83+, the TransformerCRF model learned from scratch achieved 0.78+
demonstrating comparable performances but using much less cost, e.g. 39.80\%
less training parameters; 3) on BIO-strict span level evaluation using
weighted-average F1, the score gaps are even smaller (97.59\%, 97.44\%,
96.84\%) for models (ClinicalBERT-CRF, BERT-CRF, TransformerCRF). 4) efficient
training using down-sampling for better data-distribution (SamBD) further
reduced the data for model learning but producing similar outcomes around 0.02
points lower than the full set model training. Our models including source
codes will be hosted at \url{https://github.com/HECTA-UoM/TransformerCRF}
- Abstract(参考訳): 一般または関連するドメインデータから特定のドメインやタスクに、新しいタスクで利用可能な限られた量のリソースを使って事前訓練する大規模言語モデル(LLM)は、NLPフィールドで一般的なプラクティスである。
本研究では,この仮定を再検討し,臨床NLP,特に薬物とその関連属性に対する名義認識について検討する。
我々は,BERTベース,BioBERT,クリニカルBERTなど,スクラッチから学習したTransformerモデルと細調整BERTベースのLLMを比較した。
また,これらのモデルと拡張モデルの連続学習のためのCRF層との比較についても検討した。
我々はモデル開発と評価にn2c2-2018共有タスクデータを使用する。
実験の結果は
1) CRF層は,すべてのニューラルモデルに違いを生じさせる。
2) マクロ平均F1を用いたBIO制限スパンレベル評価では、微調整LDMはスコア0.83+を達成したが、TransformerCRFモデルはスクラッチから学習し、同等の性能を示す0.78以上を得た。
3) 重み付き平均F1を用いたBIO限界スパンレベル評価では, モデル(ClinicalBERT-CRF, BERT-CRF, TransformerCRF)のスコアギャップはさらに小さい (97.59\%, 97.44\%, 96.84\%)。
4)データ分散(sambd)を改善するためのダウンサンプリングを用いた効率的なトレーニングにより、モデル学習のデータはさらに削減されるが、フルセットモデルのトレーニングよりも0.02ポイント低い結果が得られる。
ソースコードを含む私たちのモデルは、 \url{https://github.com/HECTA-UoM/TransformerCRF}でホストされます。
関連論文リスト
- A Comparative Study of Hybrid Models in Health Misinformation Text Classification [0.43695508295565777]
本研究では、オンラインソーシャルネットワーク(OSN)上での新型コロナウイルス関連誤情報検出における機械学習(ML)モデルとディープラーニング(DL)モデルの有効性を評価する。
本研究は, 従来のMLアルゴリズムよりも, DLおよびハイブリッドDLモデルの方が, OSN上の新型コロナウイルスの誤情報を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2024-10-08T19:43:37Z) - CALICO: Confident Active Learning with Integrated Calibration [11.978551396144532]
トレーニングプロセス中にサンプル選択に使用される信頼度を自己校正するALフレームワークを提案する。
ラベル付きサンプルが少ないソフトマックス分類器と比較して,分類性能が向上した。
論文 参考訳(メタデータ) (2024-07-02T15:05:19Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Low-resource classification of mobility functioning information in
clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。
我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文 参考訳(メタデータ) (2023-12-15T20:59:17Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Estimating oil recovery factor using machine learning: Applications of
XGBoost classification [0.0]
石油工学では、極端回復因子であるRFを決定することが不可欠である。
そこで,本研究では,手軽に利用できる特徴を用いた機械学習(ML)を用いて,10種類の油圧RFを推定する。
論文 参考訳(メタデータ) (2022-10-28T18:21:25Z) - ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。
本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。
実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文 参考訳(メタデータ) (2022-05-21T11:52:08Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。