論文の概要: Boosting Low-Resource Biomedical QA via Entity-Aware Masking Strategies
- arxiv url: http://arxiv.org/abs/2102.08366v1
- Date: Tue, 16 Feb 2021 18:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:13:16.000192
- Title: Boosting Low-Resource Biomedical QA via Entity-Aware Masking Strategies
- Title(参考訳): Entity-Aware Masking Strategiesによる低リソースバイオメディカルQAの促進
- Authors: Gabriele Pergola, Elena Kochkina, Lin Gui, Maria Liakata, Yulan He
- Abstract要約: バイオメディカル質問応答(QA)は、膨大な科学文献から高品質な情報を提供する能力に注目が集まっている。
バイオメディカル・エンティティ・アウェア・マスキング(BEM)と呼ばれるシンプルなアプローチを提案する。
マスク付き言語モデルにより、ドメインを特徴づける重要なエンティティに基づいてエンティティ中心の知識を学び、それらのエンティティをLM微調整の推進に活用します。
実験結果から, バイオメディカルQAデータセットにおける最先端モデルと同等の性能を示す。
- 参考スコア(独自算出の注目度): 25.990479833023166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biomedical question-answering (QA) has gained increased attention for its
capability to provide users with high-quality information from a vast
scientific literature. Although an increasing number of biomedical QA datasets
has been recently made available, those resources are still rather limited and
expensive to produce. Transfer learning via pre-trained language models (LMs)
has been shown as a promising approach to leverage existing general-purpose
knowledge. However, finetuning these large models can be costly and time
consuming, often yielding limited benefits when adapting to specific themes of
specialised domains, such as the COVID-19 literature. To bootstrap further
their domain adaptation, we propose a simple yet unexplored approach, which we
call biomedical entity-aware masking (BEM). We encourage masked language models
to learn entity-centric knowledge based on the pivotal entities characterizing
the domain at hand, and employ those entities to drive the LM fine-tuning. The
resulting strategy is a downstream process applicable to a wide variety of
masked LMs, not requiring additional memory or components in the neural
architectures. Experimental results show performance on par with
state-of-the-art models on several biomedical QA datasets.
- Abstract(参考訳): バイオメディカル質問応答(QA)は、膨大な科学文献から高品質な情報を提供する能力に注目が集まっている。
バイオメディカルなQAデータセットは近年増えてきているが、これらのリソースはいまだに限られており、生産に費用がかかる。
事前学習言語モデル(LM)による伝達学習は、既存の汎用知識を活用するための有望なアプローチとして示されている。
しかし、これらの大きなモデルの微調整はコストと時間がかかるため、新型コロナウイルスの文献のような専門分野の特定のテーマに適応する際の利点は限られている。
ドメイン適応をさらに推し進めるために,バイオメディカル・エンティティ・アウェア・マスキング (BEM) と呼ばれるシンプルなアプローチを提案する。
マスク付き言語モデルにより、ドメインを特徴づける重要なエンティティに基づいてエンティティ中心の知識を学び、それらのエンティティをLM微調整の推進に活用します。
結果として得られる戦略は、さまざまなマスクされたLMに適用可能な下流プロセスであり、ニューラルアーキテクチャに追加のメモリやコンポーネントを必要としない。
実験結果から, バイオメディカルQAデータセットにおける最先端モデルと同等の性能を示す。
関連論文リスト
- Interpretability from a new lens: Integrating Stratification and Domain
knowledge for Biomedical Applications [0.0]
本稿では, バイオメディカル問題データセットの k-fold cross-validation (CV) への階層化のための新しい計算手法を提案する。
このアプローチはモデルの安定性を改善し、信頼を確立し、トレーニングされたIMLモデルによって生成された結果の説明を提供する。
論文 参考訳(メタデータ) (2023-03-15T12:02:02Z) - SEMPAI: a Self-Enhancing Multi-Photon Artificial Intelligence for
prior-informed assessment of muscle function and pathology [48.54269377408277]
本稿では,仮説駆動型先行処理をデータ駆動型ディープラーニングアプローチに統合した,SEMPAI(Self-Enhancing Multi-Photon Artificial Intelligence)を紹介する。
SEMPAIは、小さなデータセットの予測を可能にするために、いくつかのタスクを共同で学習する。
SEMPAIは、少ないデータを含む7つの予測タスクのうち6つにおいて、最先端のバイオマーカーよりも優れています。
論文 参考訳(メタデータ) (2022-10-28T17:03:04Z) - Extracting Biomedical Factual Knowledge Using Pretrained Language Model
and Electronic Health Record Context [7.7971830917251275]
我々は、言語モデル(LM)から知識を抽出するプロンプト手法を、新しい知識ベース(LM)として用いる。
バイオメディカル領域における低バウンドを改善するプロンプトに、特にEHRノートをコンテキストとして追加する。
実験の結果、これらの言語モデルが持つ知識は、EHRノートのノイズ知識と正しい知識を区別できることがわかった。
論文 参考訳(メタデータ) (2022-08-26T00:01:26Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - ELECTRAMed: a new pre-trained language representation model for
biomedical NLP [0.0]
バイオメディカル分野に適したELECTRAMed(ELECTRAMed)と呼ばれる事前訓練されたドメイン固有言語モデルを提案する。
この新しいアプローチは、一般ドメインエレクトラアーキテクチャの学習フレームワークとその計算上の利点を継承している。
論文 参考訳(メタデータ) (2021-04-19T19:38:34Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Machine Learning in Nano-Scale Biomedical Engineering [77.75587007080894]
ナノスケールバイオメディカルエンジニアリングにおける機械学習の利用に関する既存の研究について概説する。
ML問題として定式化できる主な課題は、3つの主要なカテゴリに分類される。
提示された方法論のそれぞれについて、その原則、応用、制限に特に重点を置いている。
論文 参考訳(メタデータ) (2020-08-05T15:45:54Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。