Fugu-MT 論文翻訳(概要): Exploring the Value of Pre-trained Language Models for Clinical Named Entity Recognition

論文の概要: Exploring the Value of Pre-trained Language Models for Clinical Named Entity Recognition

arxiv url: http://arxiv.org/abs/2210.12770v4
Date: Mon, 30 Oct 2023 17:56:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 04:32:55.280503
Title: Exploring the Value of Pre-trained Language Models for Clinical Named Entity Recognition
Title（参考訳）: 臨床名付きエンティティ認識のための事前学習言語モデルの価値の検討
Authors: Samuel Belkadi and Lifeng Han and Yuping Wu and Goran Nenadic
Abstract要約: 我々は、スクラッチからトレーニングされたTransformerモデルと、細調整されたBERTベースのLLMを比較した。文脈学習を促進するために,追加のCRF層がそのようなモデルに与える影響を検討する。
参考スコア（独自算出の注目度）: 6.917786124918387
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The practice of fine-tuning Pre-trained Language Models (PLMs) from general or domain-specific data to a specific task with limited resources, has gained popularity within the field of natural language processing (NLP). In this work, we re-visit this assumption and carry out an investigation in clinical NLP, specifically Named Entity Recognition on drugs and their related attributes. We compare Transformer models that are trained from scratch to fine-tuned BERT-based LLMs namely BERT, BioBERT, and ClinicalBERT. Furthermore, we examine the impact of an additional CRF layer on such models to encourage contextual learning. We use n2c2-2018 shared task data for model development and evaluations. The experimental outcomes show that 1) CRF layers improved all language models; 2) referring to BIO-strict span level evaluation using macro-average F1 score, although the fine-tuned LLMs achieved 0.83+ scores, the TransformerCRF model trained from scratch achieved 0.78+, demonstrating comparable performances with much lower cost - e.g. with 39.80\% less training parameters; 3) referring to BIO-strict span-level evaluation using weighted-average F1 score, ClinicalBERT-CRF, BERT-CRF, and TransformerCRF exhibited lower score differences, with 97.59\%/97.44\%/96.84\% respectively. 4) applying efficient training by down-sampling for better data distribution further reduced the training cost and need for data, while maintaining similar scores - i.e. around 0.02 points lower compared to using the full dataset. Our models will be hosted at \url{https://github.com/HECTA-UoM/TransformerCRF}
Abstract（参考訳）: 自然言語処理(NLP)の分野では,一般あるいはドメイン固有データから限られたリソースを持つ特定のタスクへの微調整事前学習言語モデル(PLM)の実践が人気を集めている。本研究では,この仮定を再考し,臨床NLP,特に薬物とその関連属性に対する名前付きエンティティ認識について検討する。我々は,スクラッチからトレーニングした Transformer モデルと細調整された BERT ベースの LLM,すなわち BERT, BioBERT, ClinicalBERT を比較した。さらに、文脈学習を促進するために追加のCRF層がそのようなモデルに与える影響を検討する。我々はモデル開発と評価にn2c2-2018共有タスクデータを使用する。実験の結果は 1) CRF層は全ての言語モデルを改善した。 2) マクロ平均F1スコアを用いたBIO制限スパンレベル評価について、微調整LDMは0.83以上のスコアを得たが、TransformerCRFモデルは、スクラッチからトレーニングされた0.78以上のスコアを得た。 3) 重み付き平均値を用いた生体制限スパンレベル評価では, 臨床用bert-crf, bert-crf, およびtransformrcrfがそれぞれ97.59\%/97.44\%/96.84\%と低いスコアを示した。 4) より優れたデータ分散のためのダウンサンプリングによる効率的なトレーニングの適用により、トレーニングコストとデータの必要性はさらに低減され、同様のスコアが維持される。我々のモデルは \url{https://github.com/HECTA-UoM/TransformerCRF} でホストされます。

関連論文リスト

S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
A Comparative Study of Hybrid Models in Health Misinformation Text Classification [0.43695508295565777]
本研究では、オンラインソーシャルネットワーク(OSN)上での新型コロナウイルス関連誤情報検出における機械学習(ML)モデルとディープラーニング(DL)モデルの有効性を評価する。本研究は, 従来のMLアルゴリズムよりも, DLおよびハイブリッドDLモデルの方が, OSN上の新型コロナウイルスの誤情報を検出するのに有効であることが示唆された。
論文参考訳（メタデータ） (2024-10-08T19:43:37Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文参考訳（メタデータ） (2024-09-09T17:23:29Z)
CALICO: Confident Active Learning with Integrated Calibration [11.978551396144532]
トレーニングプロセス中にサンプル選択に使用される信頼度を自己校正するALフレームワークを提案する。ラベル付きサンプルが少ないソフトマックス分類器と比較して,分類性能が向上した。
論文参考訳（メタデータ） (2024-07-02T15:05:19Z)
Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-06-20T18:35:47Z)
Low-resource classification of mobility functioning information in clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文参考訳（メタデータ） (2023-12-15T20:59:17Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Estimating oil recovery factor using machine learning: Applications of XGBoost classification [0.0]
石油工学では、極端回復因子であるRFを決定することが不可欠である。そこで,本研究では,手軽に利用できる特徴を用いた機械学習(ML)を用いて,10種類の油圧RFを推定する。
論文参考訳（メタデータ） (2022-10-28T18:21:25Z)
ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文参考訳（メタデータ） (2022-05-21T11:52:08Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。 ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文参考訳（メタデータ） (2021-11-18T06:48:00Z)
Fine-tuning BERT for Low-Resource Natural Language Understanding via Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文参考訳（メタデータ） (2020-12-04T08:34:39Z)
Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文参考訳（メタデータ） (2020-08-08T03:02:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。