論文の概要: BioAug: Conditional Generation based Data Augmentation for Low-Resource
Biomedical NER
- arxiv url: http://arxiv.org/abs/2305.10647v1
- Date: Thu, 18 May 2023 02:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 17:31:38.938206
- Title: BioAug: Conditional Generation based Data Augmentation for Low-Resource
Biomedical NER
- Title(参考訳): BioAug:低リソースバイオメディカルNERのための条件生成に基づくデータ拡張
- Authors: Sreyan Ghosh and Utkarsh Tyagi and Sonal Kumar and Dinesh Manocha
- Abstract要約: 低リソースBioNERのための新しいデータ拡張フレームワークであるBioAugを紹介する。
BioAugは、選択的マスキングと知識増強に基づく新しいテキスト再構築タスクを解決するために訓練されている。
5つのベンチマークBioNERデータセットに対するBioAugの有効性を示す。
- 参考スコア(独自算出の注目度): 52.79573512427998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical Named Entity Recognition (BioNER) is the fundamental task of
identifying named entities from biomedical text. However, BioNER suffers from
severe data scarcity and lacks high-quality labeled data due to the highly
specialized and expert knowledge required for annotation. Though data
augmentation has shown to be highly effective for low-resource NER in general,
existing data augmentation techniques fail to produce factual and diverse
augmentations for BioNER. In this paper, we present BioAug, a novel data
augmentation framework for low-resource BioNER. BioAug, built on BART, is
trained to solve a novel text reconstruction task based on selective masking
and knowledge augmentation. Post training, we perform conditional generation
and generate diverse augmentations conditioning BioAug on selectively corrupted
text similar to the training stage. We demonstrate the effectiveness of BioAug
on 5 benchmark BioNER datasets and show that BioAug outperforms all our
baselines by a significant margin (1.5%-21.5% absolute improvement) and is able
to generate augmentations that are both more factual and diverse. Code:
https://github.com/Sreyan88/BioAug.
- Abstract(参考訳): biomedical named entity recognition (bioner) は、生物医学的なテキストから名前付きエンティティを識別する基本的なタスクである。
しかし、bionerは厳しいデータ不足に苦しんでおり、アノテーションに必要な高度に専門的で専門的な知識があるため、高品質のラベル付きデータを欠いている。
データの増大は、低リソースのNERに対して一般的に非常に効果的であることが示されているが、既存のデータ拡張技術では、BioNERの事実的かつ多様な拡張は得られない。
本稿では,低リソースBioNERのための新しいデータ拡張フレームワークであるBioAugを提案する。
BART上に構築されたBioAugは、選択的マスキングと知識増強に基づく新しいテキスト再構築タスクを解くために訓練されている。
訓練後,条件生成を行い,訓練段階と同様の選択的に破損したテキストに対して多彩な拡張条件付けバイオaugを生成する。
5つのベンチマークBioNERデータセットでBioAugの有効性を実証し、BioAugがすべてのベースラインを大幅なマージン(1.5%~21.5%の絶対改善)で上回り、より現実的で多様な拡張を生成することができることを示した。
コード: https://github.com/sreyan88/bioaug。
関連論文リスト
- Augmenting Biomedical Named Entity Recognition with General-domain Resources [47.24727904076347]
ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。
GERBERAは、一般ドメインのNERデータセットをトレーニングに利用した、単純なyet効率の手法である。
我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers [48.21255861863282]
BMRetrieverは、バイオメディカル検索を強化するための一連の密集したレトリバーである。
BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍まで上回っている。
論文 参考訳(メタデータ) (2024-04-29T05:40:08Z) - BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning [77.90250740041411]
本稿では,BioT5フレームワークの拡張であるBioT5+を紹介する。
BioT5+ には、分子理解のための IUPAC 名の統合、bioRxiv や PubChem などのソースからの広範なバイオテキストと分子データの統合、タスク間の汎用性のためのマルチタスク命令チューニング、数値データの処理を改善する数値トークン化技術など、いくつかの新機能が含まれている。
論文 参考訳(メタデータ) (2024-02-27T12:43:09Z) - BioT5: Enriching Cross-modal Integration in Biology with Chemical
Knowledge and Natural Language Associations [54.97423244799579]
$mathbfBioT5$は、化学知識と自然言語の関連性によって生物学のクロスモーダルな統合を強化する事前学習フレームワークである。
$mathbfBioT5$は構造化知識と非構造化知識を区別し、より効果的な情報利用につながる。
論文 参考訳(メタデータ) (2023-10-11T07:57:08Z) - AIONER: All-in-one scheme-based biomedical named entity recognition
using deep learning [7.427654811697884]
AIONERは最先端のディープラーニングとAIOスキーマに基づく汎用BioNERツールである。
AIONERは効果的で堅牢で、マルチタスク学習のような最先端のアプローチと好適に比較できる。
論文 参考訳(メタデータ) (2022-11-30T12:35:00Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - BIOS: An Algorithmically Generated Biomedical Knowledge Graph [4.030892610300306]
バイオメディカル・インフォマティクス・オントロジー・システム(BIOS)は,機械学習アルゴリズムによって完全に生成される,最初の大規模公開可能なBioMedKGである。
BIOSには4100万のコンセプト、2つの言語で740万の用語と730万のリレーション・トリプルが含まれている。
結果は、機械学習ベースのBioMedKG開発が、従来の専門家のキュレーションを置き換えるための、完全に実行可能なソリューションであることを示唆している。
論文 参考訳(メタデータ) (2022-03-18T14:09:22Z) - BioALBERT: A Simple and Effective Pre-trained Language Model for
Biomedical Named Entity Recognition [9.05154470433578]
既存のBioNERアプローチはこれらの問題を無視し、最先端(SOTA)モデルを直接採用することが多い。
本稿では,大規模バイオメディカルコーパスを用いた効果的なドメイン固有言語モデルであるALBERTを提案する。
論文 参考訳(メタデータ) (2020-09-19T12:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。