論文の概要: Harnessing Large Language Models for Biomedical Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2512.22738v1
- Date: Sun, 28 Dec 2025 01:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.195768
- Title: Harnessing Large Language Models for Biomedical Named Entity Recognition
- Title(参考訳): 生物医学的名前付きエンティティ認識のための大規模言語モデルのハーネス化
- Authors: Jian Chen, Leilei Su, Cong Sun,
- Abstract要約: BioNERは医療情報学の基礎的なタスクであり、薬物発見や臨床試験のマッチングといった下流の応用に不可欠である。
提案するBioSelectTuneは,汎用言語モデルを微調整するための,高効率でデータ中心のフレームワークである。
我々のモデルは、正の正のデータのうち50%しか訓練されていないが、完全に訓練されたベースラインを超えている。
- 参考スコア(独自算出の注目度): 4.376764535031509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background and Objective: Biomedical Named Entity Recognition (BioNER) is a foundational task in medical informatics, crucial for downstream applications like drug discovery and clinical trial matching. However, adapting general-domain Large Language Models (LLMs) to this task is often hampered by their lack of domain-specific knowledge and the performance degradation caused by low-quality training data. To address these challenges, we introduce BioSelectTune, a highly efficient, data-centric framework for fine-tuning LLMs that prioritizes data quality over quantity. Methods and Results: BioSelectTune reformulates BioNER as a structured JSON generation task and leverages our novel Hybrid Superfiltering strategy, a weak-to-strong data curation method that uses a homologous weak model to distill a compact, high-impact training dataset. Conclusions: Through extensive experiments, we demonstrate that BioSelectTune achieves state-of-the-art (SOTA) performance across multiple BioNER benchmarks. Notably, our model, trained on only 50% of the curated positive data, not only surpasses the fully-trained baseline but also outperforms powerful domain-specialized models like BioMedBERT.
- Abstract(参考訳): 背景と目的 バイオメディカル名前付きエンティティ認識(BioNER)は医学情報学の基礎的なタスクであり、薬物発見や臨床試験のマッチングといった下流の応用に不可欠である。
しかし、このタスクに汎用言語モデル(LLM)を適用することは、ドメイン固有の知識の欠如と、低品質のトレーニングデータによるパフォーマンス劣化によってしばしば妨げられる。
これらの課題に対処するために、我々は量よりもデータ品質を優先する微調整LDMのための高効率でデータ中心のフレームワークであるBioSelectTuneを紹介した。
方法と結果: BioSelectTuneは、構造化JSON生成タスクとしてBioNERを再構成し、我々の新しいハイブリッドスーパーフィルタ戦略を活用する。
結論: 広範な実験を通じて,BioSelectTuneが複数のBioNERベンチマークで最先端(SOTA)性能を達成することを示す。
特に,本モデルでは,完全トレーニングベースラインを超えるだけでなく,BioMedBERTのような強力なドメイン特化モデルよりも優れています。
関連論文リスト
- Investigating Data Pruning for Pretraining Biological Foundation Models at Scale [47.09153330837959]
本稿では,生物ドメインに適したポストホックインフルエンス誘導型データ解析フレームワークを提案する。
我々のフレームワークは、極端な刈り取り率99%のランダム選択ベースラインを一貫して上回っている。
これらの結果は、BioFMプリトレーニングの計算コストを大幅に削減するために、インフルエンス誘導型データプルーニングの可能性を示している。
論文 参考訳(メタデータ) (2025-12-15T02:42:52Z) - Augmenting Biomedical Named Entity Recognition with General-domain Resources [47.24727904076347]
ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。
GERBERAは、一般ドメインのNERデータセットをトレーニングに利用した、単純なyet効率の手法である。
我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。