論文の概要: An Experimental Evaluation of Transformer-based Language Models in the
Biomedical Domain
- arxiv url: http://arxiv.org/abs/2012.15419v1
- Date: Thu, 31 Dec 2020 03:09:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 03:53:33.055929
- Title: An Experimental Evaluation of Transformer-based Language Models in the
Biomedical Domain
- Title(参考訳): 生体領域におけるトランスフォーマー言語モデルの実験的評価
- Authors: Paul Grouchy, Shobhit Jain, Michael Liu, Kuhan Wang, Max Tian, Nidhi
Arora, Hillary Ngai, Faiza Khan Khattak, Elham Dolatabadi, Sedef Akinli Kocak
- Abstract要約: 本稿では,BioBERTの複製実験と,バイオメディカル領域における事前学習と微調整について概説する。
また、下流の生物医学的NLPタスクにおけるドメイン固有およびドメイン非依存の事前訓練モデルの有効性についても検討する。
- 参考スコア(独自算出の注目度): 0.984441002699829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing amount of text in health data, there have been rapid
advances in large pre-trained models that can be applied to a wide variety of
biomedical tasks with minimal task-specific modifications. Emphasizing the cost
of these models, which renders technical replication challenging, this paper
summarizes experiments conducted in replicating BioBERT and further
pre-training and careful fine-tuning in the biomedical domain. We also
investigate the effectiveness of domain-specific and domain-agnostic
pre-trained models across downstream biomedical NLP tasks. Our finding confirms
that pre-trained models can be impactful in some downstream NLP tasks (QA and
NER) in the biomedical domain; however, this improvement may not justify the
high cost of domain-specific pre-training.
- Abstract(参考訳): 健康データにおけるテキスト量の増大に伴い、タスク固有の修正を最小限に抑えた幅広いバイオメディカルタスクに適用可能な、大規模事前訓練モデルの急速な進歩があった。
本稿では,BioBERTの複製実験と,バイオメディカル領域における事前学習および注意深い微調整実験をまとめた。
また、下流バイオメディカルNLPタスクにおけるドメイン固有およびドメイン非依存の事前訓練モデルの有効性について検討した。
バイオメディカル領域のNLPタスク(QA,NER)において,事前学習モデルが影響があることが確認されたが,この改善はドメイン固有の事前学習の高コストを正当化するものではない。
関連論文リスト
- Sparse*BERT: Sparse Models are Robust [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - Multi-Domain Balanced Sampling Improves Out-of-Distribution
Generalization of Chest X-ray Pathology Prediction Models [67.2867506736665]
そこで本研究では, 簡単なバッチサンプリング手法を用いた胸部X線像の分布外一般化法を提案する。
複数のトレーニングデータセット間のバランスの取れたサンプリングは、バランスを取らずにトレーニングされたベースラインモデルよりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-12-27T15:28:01Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - Multi-Task Prediction of Clinical Outcomes in the Intensive Care Unit
using Flexible Multimodal Transformers [4.836546574465437]
フレキシブルトランスフォーマーベースのEHR埋め込みパイプラインと予測モデルフレームワークを提案する。
集中治療室におけるフレキシブルデザインの実現可能性について検討した。
論文 参考訳(メタデータ) (2021-11-09T21:46:11Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Recognising Biomedical Names: Challenges and Solutions [9.51284672475743]
本稿では,不連続な言及を認識可能な遷移ベースNERモデルを提案する。
また、適切な事前学習データを通知する費用対効果のアプローチも開発している。
我々の貢献は、特に新しいバイオメディカル・アプリケーションが必要な場合に、明らかな実践的意味を持つ。
論文 参考訳(メタデータ) (2021-06-23T08:20:13Z) - Domain Generalization on Medical Imaging Classification using Episodic
Training with Task Augmentation [62.49837463676111]
本稿では,医用画像分類におけるタスク強化によるエピソードトレーニングの新たな手法を提案する。
実際の医療展開において、限られた数のソースドメインによって動機付けられ、ユニークなタスクレベルのオーバーフィッティングを検討します。
論文 参考訳(メタデータ) (2021-06-13T03:56:59Z) - ELECTRAMed: a new pre-trained language representation model for
biomedical NLP [0.0]
バイオメディカル分野に適したELECTRAMed(ELECTRAMed)と呼ばれる事前訓練されたドメイン固有言語モデルを提案する。
この新しいアプローチは、一般ドメインエレクトラアーキテクチャの学習フレームワークとその計算上の利点を継承している。
論文 参考訳(メタデータ) (2021-04-19T19:38:34Z) - Boosting Low-Resource Biomedical QA via Entity-Aware Masking Strategies [25.990479833023166]
バイオメディカル質問応答(QA)は、膨大な科学文献から高品質な情報を提供する能力に注目が集まっている。
バイオメディカル・エンティティ・アウェア・マスキング(BEM)と呼ばれるシンプルなアプローチを提案する。
マスク付き言語モデルにより、ドメインを特徴づける重要なエンティティに基づいてエンティティ中心の知識を学び、それらのエンティティをLM微調整の推進に活用します。
実験結果から, バイオメディカルQAデータセットにおける最先端モデルと同等の性能を示す。
論文 参考訳(メタデータ) (2021-02-16T18:51:13Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。