論文の概要: Lightweight Transformers for Clinical Natural Language Processing
- arxiv url: http://arxiv.org/abs/2302.04725v1
- Date: Thu, 9 Feb 2023 16:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 15:15:51.466311
- Title: Lightweight Transformers for Clinical Natural Language Processing
- Title(参考訳): 臨床自然言語処理のための軽量トランスフォーマー
- Authors: Omid Rohanian, Mohammadmahdi Nouriborji, Hannah Jauncey, Samaneh
Kouchaki, ISARIC Clinical Characterisation Group, Lei Clifton, Laura Merson,
David A. Clifton
- Abstract要約: 本研究は,臨床テキスト処理のためのコンパクト言語モデルの開発に焦点をあてる。
知識蒸留と連続学習を用いた多種多様な軽量臨床用変圧器を開発した。
評価はいくつかの標準データセットにまたがって行われ、幅広い臨床テキストマイニングタスクをカバーした。
- 参考スコア(独自算出の注目度): 9.532776962985828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Specialised pre-trained language models are becoming more frequent in NLP
since they can potentially outperform models trained on generic texts. BioBERT
and BioClinicalBERT are two examples of such models that have shown promise in
medical NLP tasks. Many of these models are overparametrised and
resource-intensive, but thanks to techniques like Knowledge Distillation (KD),
it is possible to create smaller versions that perform almost as well as their
larger counterparts. In this work, we specifically focus on development of
compact language models for processing clinical texts (i.e. progress notes,
discharge summaries etc). We developed a number of efficient lightweight
clinical transformers using knowledge distillation and continual learning, with
the number of parameters ranging from 15 million to 65 million. These models
performed comparably to larger models such as BioBERT and ClinicalBioBERT and
significantly outperformed other compact models trained on general or
biomedical data. Our extensive evaluation was done across several standard
datasets and covered a wide range of clinical text-mining tasks, including
Natural Language Inference, Relation Extraction, Named Entity Recognition, and
Sequence Classification. To our knowledge, this is the first comprehensive
study specifically focused on creating efficient and compact transformers for
clinical NLP tasks. The models and code used in this study can be found on our
Huggingface profile at https://huggingface.co/nlpie and Github page at
https://github.com/nlpie-research/Lightweight-Clinical-Transformers,
respectively, promoting reproducibility of our results.
- Abstract(参考訳): 特定の事前訓練された言語モデルは、汎用テキストで訓練されたモデルを上回る可能性があるため、NLPではより頻繁になりつつある。
BioBERT と BioClinicalBERT は医療用 NLP タスクにおいて有望であることを示す2つのモデルの一例である。
これらのモデルの多くは、過剰パラメータとリソース集約であるが、知識蒸留(kd)のような技術のおかげで、より大きなモデルとほぼ同等の性能を持つ小さなバージョンを作成することができる。
本研究は,臨床テキスト(進捗ノート,退院要約など)を処理するためのコンパクト言語モデルの開発に特化している。
我々は,1500万から6500万までのパラメータを用いて,知識蒸留と連続学習を用いた効率的な軽量臨床変換器を開発した。
これらのモデルは、BioBERT や ClinicalBioBERT のようなより大きなモデルと互換性があり、一般的な医療データやバイオメディカルデータに基づいて訓練された他のコンパクトモデルよりも大幅に優れていた。
対象は,自然言語推論,関係抽出,名前付きエンティティ認識,シーケンス分類など,多岐にわたる臨床テキストマイニングタスクであった。
我々の知る限り、この研究は、臨床NLPタスクのための効率的でコンパクトなトランスフォーマーの作成に焦点を当てた初めての総合的研究である。
この研究で使用されたモデルとコードは、https://huggingface.co/nlpieのhuggingfaceプロファイルと、https://github.com/nlpie-research/lightweight-clinical-transformersのgithubページにある。
関連論文リスト
- Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。
physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文 参考訳(メタデータ) (2023-02-16T05:08:34Z) - A Comparative Study of Pretrained Language Models for Long Clinical Text [4.196346055173027]
大規模臨床コーパスで事前訓練した2つのドメイン富化言語モデル, クリニカル・ロングフォーマーとクリニカル・ビッグバードを紹介した。
名前付きエンティティ認識、質問応答、自然言語推論、文書分類タスクを含む10のベースラインタスクを用いて、両方の言語モデルを評価する。
論文 参考訳(メタデータ) (2023-01-27T16:50:29Z) - On the Effectiveness of Compact Biomedical Transformers [12.432191400869002]
バイオメディカルコーパスで事前訓練された言語モデルは、最近下流のバイオメディカルタスクにおいて有望な結果を示した。
既存のトレーニング済みモデルの多くは、埋め込みサイズ、隠れ次元、層数などの要因により、リソース集約的で計算的に重い。
本稿では,BioDistilBERT,BioTinyBERT,BioMobileBERT,DistilBioBERT,TinyBioBERT,CompactBioBERTの6つの軽量モデルを紹介する。
3つのバイオメディカルなタスクで全てのモデルを評価し、それらをBioBERT-v1.1と比較し、より大規模なモデルと同等に動作する効率的な軽量モデルを作成する。
論文 参考訳(メタデータ) (2022-09-07T14:24:04Z) - Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - Clinical-Longformer and Clinical-BigBird: Transformers for long clinical
sequences [4.196346055173027]
BERTのようなトランスフォーマーベースのモデルは、様々な自然言語処理タスクのパフォーマンスを劇的に改善した。
これらの変圧器の中核となる制限の一つは、完全な自己保持機構のため、メモリ消費の大幅な増加である。
大規模臨床コーパスから事前学習した2つのドメイン強化言語モデル,すなわちCLI(CLI)-LongformerとCLI(CLI)-BigBirdを導入する。
論文 参考訳(メタデータ) (2022-01-27T22:51:58Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - An Empirical Study of Multi-Task Learning on BERT for Biomedical Text
Mining [17.10823632511911]
複数のデコーダを用いたマルチタスク学習モデルについて,生物医学的および臨床的自然言語処理タスクの多様性について検討した。
実験結果から,MTL微調整モデルが最先端トランスモデルより優れていることが示された。
論文 参考訳(メタデータ) (2020-05-06T13:25:21Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。