論文の概要: Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing
- arxiv url: http://arxiv.org/abs/2007.15779v6
- Date: Thu, 16 Sep 2021 21:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 05:56:13.567943
- Title: Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing
- Title(参考訳): バイオメディカル自然言語処理のためのドメイン特化言語モデル準備
- Authors: Yu Gu, Robert Tinn, Hao Cheng, Michael Lucas, Naoto Usuyama, Xiaodong
Liu, Tristan Naumann, Jianfeng Gao, and Hoifung Poon
- Abstract要約: バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
- 参考スコア(独自算出の注目度): 73.37262264915739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining large neural language models, such as BERT, has led to impressive
gains on many natural language processing (NLP) tasks. However, most
pretraining efforts focus on general domain corpora, such as newswire and Web.
A prevailing assumption is that even domain-specific pretraining can benefit by
starting from general-domain language models. In this paper, we challenge this
assumption by showing that for domains with abundant unlabeled text, such as
biomedicine, pretraining language models from scratch results in substantial
gains over continual pretraining of general-domain language models. To
facilitate this investigation, we compile a comprehensive biomedical NLP
benchmark from publicly-available datasets. Our experiments show that
domain-specific pretraining serves as a solid foundation for a wide range of
biomedical NLP tasks, leading to new state-of-the-art results across the board.
Further, in conducting a thorough evaluation of modeling choices, both for
pretraining and task-specific fine-tuning, we discover that some common
practices are unnecessary with BERT models, such as using complex tagging
schemes in named entity recognition (NER). To help accelerate research in
biomedical NLP, we have released our state-of-the-art pretrained and
task-specific models for the community, and created a leaderboard featuring our
BLURB benchmark (short for Biomedical Language Understanding & Reasoning
Benchmark) at https://aka.ms/BLURB.
- Abstract(参考訳): BERTなどの大規模ニューラルネットワークモデルの事前トレーニングは、多くの自然言語処理(NLP)タスクにおいて、大幅な向上をもたらしている。
しかし、ほとんどの事前学習作業は、newswireやwebといった一般的なドメインコーパスにフォーカスしている。
一般的な前提は、ドメイン固有の事前訓練でさえ、汎用ドメイン言語モデルから始めることで利益を享受できるということである。
本稿では,生物医学などの無ラベルテキストが豊富である領域において,スクラッチから言語モデルを事前学習することで,汎用言語モデルの連続的事前学習よりも大幅に向上することを示すことにより,この仮定に挑戦する。
この調査を容易にするため、公開データセットから包括的バイオメディカルNLPベンチマークをコンパイルする。
実験の結果, ドメイン固有のプレトレーニングは, 幅広いバイオメディカルNLPタスクの基盤として機能し, ボード全体に新たな最先端の成果をもたらすことがわかった。
さらに、事前学習とタスク固有の微調整の両方において、モデリング選択の徹底的な評価を行う際に、名前付きエンティティ認識(NER)における複雑なタグ付けスキームの使用など、BERTモデルではいくつかの一般的なプラクティスが不要であることが判明した。
バイオメディカルNLPの研究を加速するために、私たちはコミュニティのために最先端の事前訓練されたタスク固有モデルをリリースし、https://aka.ms/BLURBで私たちのBLURBベンチマーク(バイオメディカル言語理解と推論ベンチマークのショート)を特集したリーダーボードを作成しました。
関連論文リスト
- Comprehensive Study on German Language Models for Clinical and Biomedical Text Understanding [16.220303664681172]
我々は、翻訳された英語の医療データとドイツの臨床データの3Bトークンから2.4Bトークンを抽出し、いくつかのドイツの医療言語モデルを事前訓練した。
得られたモデルは、名前付きエンティティ認識(NER)、多ラベル分類、抽出質問応答など、様々なドイツの下流タスクで評価された。
本研究は, 臨床モデルとスクラッチからトレーニングした成績を一致させたり, 上回ったりする能力が, 連続事前訓練によって実証されていることを結論する。
論文 参考訳(メタデータ) (2024-04-08T17:24:04Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - BioBART: Pretraining and Evaluation of A Biomedical Generative Language
Model [1.1764594853212893]
本稿では,BARTをバイオメディカル領域に適応させる生成言語モデルBioBARTを紹介する。
我々は、対話、要約、エンティティリンク、名前付きエンティティ認識など、様々なバイオメディカル言語生成タスクを照合する。
PubMedの抽象化で事前訓練されたBioBARTは、BARTと比較してパフォーマンスが向上し、いくつかのタスクに強いベースラインが設定されている。
論文 参考訳(メタデータ) (2022-04-08T08:07:42Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - Biomedical and Clinical Language Models for Spanish: On the Benefits of
Domain-Specific Pretraining in a Mid-Resource Scenario [0.05277024349608833]
本研究は, 異なる事前学習選択を実験することにより, スペイン語の生物医学的, 臨床的言語モデルを示す。
モデルをスクラッチからトレーニングするための十分な臨床データがないため,混合ドメイン事前訓練法とクロスドメイン移行法を適用し,優れたバイオクリニカルモデルを構築した。
論文 参考訳(メタデータ) (2021-09-08T12:12:07Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - ELECTRAMed: a new pre-trained language representation model for
biomedical NLP [0.0]
バイオメディカル分野に適したELECTRAMed(ELECTRAMed)と呼ばれる事前訓練されたドメイン固有言語モデルを提案する。
この新しいアプローチは、一般ドメインエレクトラアーキテクチャの学習フレームワークとその計算上の利点を継承している。
論文 参考訳(メタデータ) (2021-04-19T19:38:34Z) - Pre-training technique to localize medical BERT and enhance biomedical
BERT [0.0]
高品質で大容量のデータベースが公開されていないドメインでうまく機能する特定のBERTモデルを訓練することは困難である。
本稿では,アップサンプリングと増幅語彙の同時事前学習という,一つの選択肢による1つの介入を提案する。
我が国の医療用BERTは,医学文書分類タスクにおいて,従来のベースラインおよび他のBERTモデルよりも優れていた。
論文 参考訳(メタデータ) (2020-05-14T18:00:01Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。