論文の概要: NEREL-BIO: A Dataset of Biomedical Abstracts Annotated with Nested Named
Entities
- arxiv url: http://arxiv.org/abs/2210.11913v1
- Date: Fri, 21 Oct 2022 12:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:42:24.638930
- Title: NEREL-BIO: A Dataset of Biomedical Abstracts Annotated with Nested Named
Entities
- Title(参考訳): NEREL-BIO:Nested Named Entitiesを付加したバイオメディカル抽象化のデータセット
- Authors: Natalia Loukachevitch, Suresh Manandhar, Elina Baral, Igor Rozhkov,
Pavel Braslavski, Vladimir Ivanov, Tatiana Batura, and Elena Tutubalina
- Abstract要約: NEREL-BIOは、ロシア語のPubMed抽象文の注釈スキームとコーパスであり、英語の抽象文は少ない。
NEREL-BIOは、ドメイン固有のエンティティタイプを導入することで、一般的なドメインデータセットであるNERELを拡張している。
NEREL-BIOはネストされた名前のエンティティに対して、NERELで使用されるスキームの拡張としてアノテーションを提供する。
- 参考スコア(独自算出の注目度): 7.713462279125201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes NEREL-BIO -- an annotation scheme and corpus of PubMed
abstracts in Russian and smaller number of abstracts in English. NEREL-BIO
extends the general domain dataset NEREL by introducing domain-specific entity
types. NEREL-BIO annotation scheme covers both general and biomedical domains
making it suitable for domain transfer experiments. NEREL-BIO provides
annotation for nested named entities as an extension of the scheme employed for
NEREL. Nested named entities may cross entity boundaries to connect to shorter
entities nested within longer entities, making them harder to detect.
NEREL-BIO contains annotations for 700+ Russian and 100+ English abstracts.
All English PubMed annotations have corresponding Russian counterparts. Thus,
NEREL-BIO comprises the following specific features: annotation of nested named
entities, it can be used as a benchmark for cross-domain (NEREL -> NEREL-BIO)
and cross-language (English -> Russian) transfer. We experiment with both
transformer-based sequence models and machine reading comprehension (MRC)
models and report their results.
The dataset is freely available at https://github.com/nerel-ds/NEREL-BIO.
- Abstract(参考訳): NEREL-BIOは、ロシア語のPubMed抽象文の注釈スキームとコーパスであり、英語の抽象文は少ない。
NEREL-BIOは、ドメイン固有のエンティティタイプを導入することで、一般的なドメインデータセットであるNERELを拡張する。
NEREL-BIOアノテーションスキームは、一般領域と生物医学領域の両方をカバーし、ドメイン転送実験に適している。
NEREL-BIOはネストされた名前のエンティティに対して、NERELで使用されるスキームの拡張としてアノテーションを提供する。
ネストされた名前付きエンティティは、長いエンティティ内でネストされた短いエンティティに接続するためにエンティティ境界を交差する可能性があるため、検出が困難になる。
NEREL-BIOには700以上のロシア語と100以上の英語の要約の注釈が含まれている。
すべての英語のPubMedアノテーションは対応するロシアのアノテーションを持っている。
NEREL-BIOはネストされた名前付きエンティティのアノテーションで、クロスドメイン(NEREL -> NEREL-BIO)とクロス言語(英語 ->ロシア語)転送のベンチマークとして使用できる。
トランスベースシーケンスモデルと機械読み取り理解モデル(mrc)の両方を実験し,その結果を報告する。
データセットはhttps://github.com/nerel-ds/NEREL-BIOで無償公開されている。
関連論文リスト
- Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - Partial Annotation Learning for Biomedical Entity Recognition [0.19336815376402716]
部分的アノテーション学習法は, 実体アノテーションの欠如により, バイオメディカルコーパスから効果的に学習できることが示唆された。
提案手法は代替品よりも優れており,特にPubMedBERTタグをF1スコアで38%向上させる。
論文 参考訳(メタデータ) (2023-05-22T15:18:38Z) - From Zero to Hero: Harnessing Transformers for Biomedical Named Entity Recognition in Zero- and Few-shot Contexts [0.0]
本稿では,生物医学領域におけるゼロショットNERと少数ショットNERの手法を提案する。
我々は、ゼロショットNERが35.44%、ワンショットNERが50.10%、10ショットNERが69.94%、100ショットNERが79.51%の平均スコアを達成した。
論文 参考訳(メタデータ) (2023-05-05T12:14:22Z) - Enhancing Label Consistency on Document-level Named Entity Recognition [19.249781091058605]
名前付きエンティティ認識(NER)は、バイオメディカル応用における文書から情報を抽出する基本的な部分である。
提案手法であるConNERは,修飾子(形容詞や前置詞など)のラベル依存性を高め,より高いラベルアグリーメントを実現する。
本手法の有効性を4つの生物医学的NERデータセットで実証した。
論文 参考訳(メタデータ) (2022-10-24T04:45:17Z) - Optimizing Bi-Encoder for Named Entity Recognition via Contrastive
Learning [80.36076044023581]
名前付きエンティティ認識(NER)のための効率的なバイエンコーダフレームワークを提案する。
我々はNERを、エンティティ参照のベクトル表現とその型との類似性を最大化する計量学習問題とみなす。
NERのこのバイエンコーダの定式化における大きな課題は、エンティティの言及から非エンゲージスを分離することにある。
論文 参考訳(メタデータ) (2022-08-30T23:19:04Z) - Nested Named Entity Recognition as Holistic Structure Parsing [92.8397338250383]
本研究は,文中の全入れ子NEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。
実験により、我々のモデルは、最先端にアプローチしたり、あるいは達成したりするような、広く使われているベンチマークで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2022-04-17T12:48:20Z) - NEREL: A Russian Dataset with Nested Named Entities and Relations [55.69103749079697]
我々は、名前付きエンティティ認識と関係抽出のためのロシアのデータセットであるNERELを提案する。
56Kのアノテートされたエンティティと39Kのアノテートされたリレーションを含んでいる。
論文 参考訳(メタデータ) (2021-08-30T10:40:20Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - BioALBERT: A Simple and Effective Pre-trained Language Model for
Biomedical Named Entity Recognition [9.05154470433578]
既存のBioNERアプローチはこれらの問題を無視し、最先端(SOTA)モデルを直接採用することが多い。
本稿では,大規模バイオメディカルコーパスを用いた効果的なドメイン固有言語モデルであるALBERTを提案する。
論文 参考訳(メタデータ) (2020-09-19T12:58:47Z) - Bipartite Flat-Graph Network for Nested Named Entity Recognition [94.91507634620133]
ネスト型名前付きエンティティ認識(NER)のためのバイパートフラットグラフネットワーク(BiFlaG)
ネストされた名前付きエンティティ認識(NER)のためのバイパーティライトフラットグラフネットワーク(BiFlaG)を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。