論文の概要: GLiNER-biomed: A Suite of Efficient Models for Open Biomedical Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2504.00676v1
- Date: Tue, 01 Apr 2025 11:40:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:54.823992
- Title: GLiNER-biomed: A Suite of Efficient Models for Open Biomedical Named Entity Recognition
- Title(参考訳): GLiNER-biomed:オープンバイオメディカル名前付きエンティティ認識のための効率的なモデルスイート
- Authors: Anthony Yazdani, Ihor Stepanov, Douglas Teodoro,
- Abstract要約: GLiNER-biomedは、バイオメディカルNERに特化されたジェネリストモデルと軽量モデル(GLiNER)のドメイン適応スイートである。
従来の手法とは対照的に、GLiNERは任意のエンティティ型を推論するために自然言語記述を使用し、ゼロショット認識を可能にする。
いくつかのバイオメディカルデータセットの評価では、GLiNERのバイオバイオームは、ゼロショットと少数ショットの両方のシナリオにおいて、最先端のGLiNERモデルより優れていることが示されている。
- 参考スコア(独自算出の注目度): 0.06554326244334868
- License:
- Abstract: Biomedical named entity recognition (NER) presents unique challenges due to specialized vocabularies, the sheer volume of entities, and the continuous emergence of novel entities. Traditional NER models, constrained by fixed taxonomies and human annotations, struggle to generalize beyond predefined entity types or efficiently adapt to emerging concepts. To address these issues, we introduce GLiNER-biomed, a domain-adapted suite of Generalist and Lightweight Model for NER (GLiNER) models specifically tailored for biomedical NER. In contrast to conventional approaches, GLiNER uses natural language descriptions to infer arbitrary entity types, enabling zero-shot recognition. Our approach first distills the annotation capabilities of large language models (LLMs) into a smaller, more efficient model, enabling the generation of high-coverage synthetic biomedical NER data. We subsequently train two GLiNER architectures, uni- and bi-encoder, at multiple scales to balance computational efficiency and recognition performance. Evaluations on several biomedical datasets demonstrate that GLiNER-biomed outperforms state-of-the-art GLiNER models in both zero- and few-shot scenarios, achieving 5.96% improvement in F1-score over the strongest baseline. Ablation studies highlight the effectiveness of our synthetic data generation strategy and emphasize the complementary benefits of synthetic biomedical pre-training combined with fine-tuning on high-quality general-domain annotations. All datasets, models, and training pipelines are publicly available at https://github.com/ds4dh/GLiNER-biomed.
- Abstract(参考訳): 生物医学的名前付き実体認識(NER)は、特別な語彙、大量の実体、新しい実体の継続的な出現による固有の課題を提示する。
従来のNERモデルは、固定された分類学と人間のアノテーションによって制約され、事前に定義されたエンティティタイプを超えて一般化したり、新しい概念に効率的に適応するのに苦労する。
GLiNER-biomedは,バイオメディカルNERに特化して設計されたジェネリストモデルと軽量モデル(GLiNER)のドメイン適応スイートである。
従来の手法とは対照的に、GLiNERは任意のエンティティ型を推論するために自然言語記述を使用し、ゼロショット認識を可能にする。
提案手法は, 大規模言語モデル(LLM)のアノテーション機能を, より小さく, より効率的なモデルに蒸留し, 高被覆合成バイオメディカルNERデータの生成を可能にする。
その後、計算効率と認識性能のバランスをとるために、ユニコードとバイエンコーダの2つのGLiNERアーキテクチャを複数スケールで訓練する。
いくつかのバイオメディカルデータセットによる評価では、GLiNERのバイオームはゼロショットと少数ショットの両方のシナリオで最先端のGLiNERモデルより優れており、最強ベースラインよりもF1スコアが5.96%向上している。
アブレーション研究は、我々の合成データ生成戦略の有効性を強調し、高品質な汎用ドメインアノテーションの微調整と合成バイオメディカル事前学習の相補的な利点を強調した。
すべてのデータセット、モデル、トレーニングパイプラインはhttps://github.com/ds4dh/GLiNER-biomedで公開されている。
関連論文リスト
- Augmenting Biomedical Named Entity Recognition with General-domain Resources [47.24727904076347]
ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。
GERBERAは、一般ドメインのNERデータセットをトレーニングに利用した、単純なyet効率の手法である。
我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。
まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。
第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文 参考訳(メタデータ) (2024-05-28T16:55:15Z) - Multi-level biomedical NER through multi-granularity embeddings and
enhanced labeling [3.8599767910528917]
本稿では,複数のモデルの強みを統合するハイブリッドアプローチを提案する。
BERTは、文脈化された単語の埋め込み、文字レベルの情報キャプチャのための事前訓練されたマルチチャネルCNN、およびテキスト内の単語間の依存関係のシーケンスラベリングとモデル化のためのBiLSTM + CRFを提供する。
我々は、ベンチマークi2b2/2010データセットを用いて、F1スコア90.11を達成する。
論文 参考訳(メタデータ) (2023-12-24T21:45:36Z) - GLiNER: Generalist Model for Named Entity Recognition using
Bidirectional Transformer [4.194768796374315]
名前付きエンティティ認識(NER)は、様々な自然言語処理(NLP)アプリケーションに必須である。
本稿では,任意の種類のエンティティを識別するために訓練されたコンパクトなNERモデルを提案する。
我々のモデルであるGLiNERは、Large Language Models (LLM) の遅いシーケンシャルトークン生成に対するアドバンテージである並列エンティティ抽出を容易にする。
論文 参考訳(メタデータ) (2023-11-14T20:39:12Z) - UniversalNER: Targeted Distillation from Large Language Models for Open
Named Entity Recognition [48.977866466971655]
オープンNERのためにChatGPTをはるかに小さなUniversalNERモデルに蒸留する方法を示す。
9つの異なるドメインにわたる43のデータセットからなる、これまでで最大のNERベンチマークを組み立てました。
パラメータのごく一部で、UniversalNERは任意のエンティティタイプを認識するChatGPTの能力を取得するだけでなく、NERの精度を平均7-9絶対F1ポイントで上回る。
論文 参考訳(メタデータ) (2023-08-07T03:39:52Z) - From Zero to Hero: Harnessing Transformers for Biomedical Named Entity Recognition in Zero- and Few-shot Contexts [0.0]
本稿では,生物医学領域におけるゼロショットNERと少数ショットNERの手法を提案する。
我々は、ゼロショットNERが35.44%、ワンショットNERが50.10%、10ショットNERが69.94%、100ショットNERが79.51%の平均スコアを達成した。
論文 参考訳(メタデータ) (2023-05-05T12:14:22Z) - Nested Named Entity Recognition as Holistic Structure Parsing [92.8397338250383]
本研究は,文中の全入れ子NEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。
実験により、我々のモデルは、最先端にアプローチしたり、あるいは達成したりするような、広く使われているベンチマークで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2022-04-17T12:48:20Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - BioALBERT: A Simple and Effective Pre-trained Language Model for
Biomedical Named Entity Recognition [9.05154470433578]
既存のBioNERアプローチはこれらの問題を無視し、最先端(SOTA)モデルを直接採用することが多い。
本稿では,大規模バイオメディカルコーパスを用いた効果的なドメイン固有言語モデルであるALBERTを提案する。
論文 参考訳(メタデータ) (2020-09-19T12:58:47Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。