論文の概要: OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets
- arxiv url: http://arxiv.org/abs/2508.01630v1
- Date: Sun, 03 Aug 2025 07:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.977285
- Title: OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets
- Title(参考訳): OpenMed NER:12の公開データセットにまたがるバイオメディカルNERのためのオープンソース、ドメイン適応型状態変換器
- Authors: Maziyar Panahi,
- Abstract要約: 名前付き認識のためのオープンソースドメイン適応型トランスフォーマーモデルであるOpenMed NERを紹介する。
化学物質, 疾患, 遺伝子, 種にまたがる12種類のバイオメディカルNERベンチマークのモデルについて検討した。
OpenMed NERは、これらの12データセットのうち10つで、最先端のマイクロF1スコアを新たに達成し、さまざまなエンティティタイプで大幅に向上している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named-entity recognition (NER) is fundamental to extracting structured information from the >80% of healthcare data that resides in unstructured clinical notes and biomedical literature. Despite recent advances with large language models, achieving state-of-the-art performance across diverse entity types while maintaining computational efficiency remains a significant challenge. We introduce OpenMed NER, a suite of open-source, domain-adapted transformer models that combine lightweight domain-adaptive pre-training (DAPT) with parameter-efficient Low-Rank Adaptation (LoRA). Our approach performs cost-effective DAPT on a 350k-passage corpus compiled from ethically sourced, publicly available research repositories and de-identified clinical notes (PubMed, arXiv, and MIMIC-III) using DeBERTa-v3, PubMedBERT, and BioELECTRA backbones. This is followed by task-specific fine-tuning with LoRA, which updates less than 1.5% of model parameters. We evaluate our models on 12 established biomedical NER benchmarks spanning chemicals, diseases, genes, and species. OpenMed NER achieves new state-of-the-art micro-F1 scores on 10 of these 12 datasets, with substantial gains across diverse entity types. Our models advance the state-of-the-art on foundational disease and chemical benchmarks (e.g., BC5CDR-Disease, +2.70 pp), while delivering even larger improvements of over 5.3 and 9.7 percentage points on more specialized gene and clinical cell line corpora. This work demonstrates that strategically adapted open-source models can surpass closed-source solutions. This performance is achieved with remarkable efficiency: training completes in under 12 hours on a single GPU with a low carbon footprint (< 1.2 kg CO2e), producing permissively licensed, open-source checkpoints designed to help practitioners facilitate compliance with emerging data protection and AI regulations, such as the EU AI Act.
- Abstract(参考訳): NER (named-entity recognition) は、構造化されていない臨床ノートやバイオメディカル文献に存在する医療データの80%以上から構造化された情報を抽出する基礎である。
大規模言語モデルによる最近の進歩にもかかわらず、計算効率を維持しながら様々なエンティティタイプで最先端のパフォーマンスを達成することは大きな課題である。
我々は、軽量なドメイン適応型事前学習(DAPT)とパラメータ効率の低いローランド適応(LoRA)を組み合わせたオープンソースのドメイン適応型トランスフォーマーモデルであるOpenMed NERを紹介する。
本手法は,DeBERTa-v3,PubMedBERT,BioELECTRAのバックボーンを用いて,倫理的ソースによる公開研究レポジトリおよび非特定臨床ノート(PubMed,arXiv,MIMIC-III)からコンパイルした350kパスコーパスコーパスに対して,費用対効果のDAPTを行う。
その後、LoRAによるタスク固有の微調整が行われ、モデルパラメータの1.5%未満が更新される。
化学物質, 疾患, 遺伝子, 種にまたがる12種類のバイオメディカルNERベンチマークのモデルについて検討した。
OpenMed NERは、これらの12データセットのうち10つで、最先端のマイクロF1スコアを新たに達成し、さまざまなエンティティタイプで大幅に向上している。
我々のモデルは基礎疾患と化学ベンチマーク(例: BC5CDR-Disease, +2.70 pp)の最先端を推し進めつつ、より専門的な遺伝子および臨床細胞株のコーパスに対して5.3および9.7%以上の改善点を提供する。
この研究は、戦略的に適応したオープンソースモデルがクローズドソースソリューションを超えることを実証している。
トレーニングは、カーボンフットプリントが低い単一のGPU上で12時間未満で完了する (< 1.2 kg CO2e)。
関連論文リスト
- A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment [46.776978552161395]
小型言語モデル(SLM)は、GPT-4のような大規模言語モデルに代わる費用対効果を提供する。
SLMは費用対効果のある代替手段を提供するが、その限られた能力は生物医学的な領域適応を必要とする。
本研究では,SLMを高性能な臨床モデルに適用するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T21:40:21Z) - GLiNER-BioMed: A Suite of Efficient Models for Open Biomedical Named Entity Recognition [0.06554326244334868]
GLiNER-BioMedは、バイオメディシンに特化したジェネラリストモデルと軽量モデル(GLiNER)のドメイン適応スイートである。
従来の手法とは対照的に、GLiNERは任意のエンティティ型を推論するために自然言語ラベルを使用するため、ゼロショット認識が可能である。
いくつかのバイオメディカルデータセットの実験では、GLiNER-BioMedは両方のゼロショットシナリオで最先端を達成している。
論文 参考訳(メタデータ) (2025-04-01T11:40:50Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - Augmenting Biomedical Named Entity Recognition with General-domain Resources [47.24727904076347]
ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。
GERBERAは、一般ドメインのNERデータセットをトレーニングに利用した、単純なyet効率の手法である。
我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - From Zero to Hero: Harnessing Transformers for Biomedical Named Entity Recognition in Zero- and Few-shot Contexts [0.0]
本稿では,生物医学領域におけるゼロショットNERと少数ショットNERの手法を提案する。
我々は、ゼロショットNERが35.44%、ワンショットNERが50.10%、10ショットNERが69.94%、100ショットNERが79.51%の平均スコアを達成した。
論文 参考訳(メタデータ) (2023-05-05T12:14:22Z) - Deeper Clinical Document Understanding Using Relation Extraction [0.0]
名前付きエンティティ認識(NER)と関係抽出(RE)モデルからなるテキストマイニングフレームワークを提案する。
我々は2つの新しいREモデルアーキテクチャを導入し、BioBERTをベースとした精度最適化アーキテクチャと、フル接続ニューラルネットワーク(FCNN)上のクラフト機能を活用した速度最適化アーキテクチャを紹介した。
本稿では,この枠組みの実践的応用として,バイオメディカル知識グラフの構築と臨床コードへの実体マッピングの精度向上について述べる。
論文 参考訳(メタデータ) (2021-12-25T17:14:13Z) - Neural Entity Recognition with Gazetteer based Fusion [7.024494879945238]
そこで我々は,NERシステムを用いて補助的なガゼテアモデルを提案し,その結果,異なる臨床データセット間での堅牢性と解釈性が向上することを示した。
我々のガゼッテラーベース核融合モデルは、データ効率が良く、20%のトレーニングデータを用いてi2b2データセット上で+1.7マイクロF1ゲインを達成することができ、トレーニング中に提示されなかった新しいエンティティの言及に4.7マイクロF1ゲインをもたらす。
論文 参考訳(メタデータ) (2021-05-27T15:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。