論文の概要: A Unified Biomedical Named Entity Recognition Framework with Large Language Models
- arxiv url: http://arxiv.org/abs/2510.08902v1
- Date: Fri, 10 Oct 2025 01:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.914506
- Title: A Unified Biomedical Named Entity Recognition Framework with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた生物医学的名前付きエンティティ認識フレームワーク
- Authors: Tengxiao Lv, Ling Luo, Juntao Li, Yanhua Wang, Yuchen Pan, Chao Liu, Yanan Wang, Yan Jiang, Huiyi Lv, Yuanyuan Sun, Jian Wang, Hongfei Lin,
- Abstract要約: 大規模言語モデル(LLM)に基づくバイオメディカル名前付きエンティティ認識(BioNER)フレームワークを提案する。
まず、テキスト生成タスクとしてBioNERを再構成し、フラットなエンティティとネストされたエンティティの両方を共同で扱うシンボリックタグ戦略を設計する。
複数の中国語と英語のデータセットでバイリンガル共同微調整を行う。
- 参考スコア(独自算出の注目度): 44.92744341698289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate recognition of biomedical named entities is critical for medical information extraction and knowledge discovery. However, existing methods often struggle with nested entities, entity boundary ambiguity, and cross-lingual generalization. In this paper, we propose a unified Biomedical Named Entity Recognition (BioNER) framework based on Large Language Models (LLMs). We first reformulate BioNER as a text generation task and design a symbolic tagging strategy to jointly handle both flat and nested entities with explicit boundary annotation. To enhance multilingual and multi-task generalization, we perform bilingual joint fine-tuning across multiple Chinese and English datasets. Additionally, we introduce a contrastive learning-based entity selector that filters incorrect or spurious predictions by leveraging boundary-sensitive positive and negative samples. Experimental results on four benchmark datasets and two unseen corpora show that our method achieves state-of-the-art performance and robust zero-shot generalization across languages. The source codes are freely available at https://github.com/dreamer-tx/LLMNER.
- Abstract(参考訳): バイオメディカル名称の正確な認識は、医療情報抽出と知識発見に不可欠である。
しかし、既存のメソッドはネストされたエンティティ、エンティティ境界の曖昧さ、言語間の一般化にしばしば苦労する。
本稿では,大規模言語モデル(LLM)に基づくバイオメディカル名称認識(BioNER)フレームワークを提案する。
まず、テキスト生成タスクとしてBioNERを再構成し、明示的な境界アノテーションでフラットなエンティティとネストされたエンティティの両方を共同で扱う象徴的なタグ付け戦略を設計する。
多言語およびマルチタスクの一般化を強化するために、中国語と英語の複数のデータセットにまたがるバイリンガルジョイント微調整を行う。
さらに,境界感応正と負のサンプルを活用することで,誤りあるいは刺激的な予測をフィルタリングするコントラスト学習に基づくエンティティセレクタを導入する。
4つのベンチマークデータセットと2つの未確認コーパスによる実験結果から,本手法は言語間における最先端性能とロバストなゼロショット一般化を実現することが示された。
ソースコードはhttps://github.com/dreamer-tx/LLMNERで無料で入手できる。
関連論文リスト
- BIBERT-Pipe on Biomedical Nested Named Entity Linking at BioASQ 2025 [5.329747408496098]
我々は,BioNNE 2025多言語バイオメディカルNested Named Entity Linking Share Task(英語とロシア語)について紹介する。
検索段階は、元の事前学習モデルを使用し、ランキング段階はドメイン固有の微調整を適用する。
BioNNE 2025のリーダーボードでは、バイリンガルベルト(BIBERT-Pipe)という2つのステージが多言語トラックで3位にランクされ、これらの最小でも原則化された修正の有効性と競争性を実証した。
論文 参考訳(メタデータ) (2025-09-10T09:14:25Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - DualNER: A Dual-Teaching framework for Zero-shot Cross-lingual Named
Entity Recognition [27.245171237640502]
DualNERは、注釈付きソース言語コーパスとラベルなしターゲット言語テキストの両方をフル活用するためのフレームワークである。
NERの2つの相補的な学習パラダイム、すなわちシーケンスラベリングとスパン予測を統合マルチタスクフレームワークに統合する。
論文 参考訳(メタデータ) (2022-11-15T12:50:59Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - Improving Biomedical Pretrained Language Models with Knowledge [22.61591249168801]
UMLS知識基盤の知識を明示的に活用したバイオメディカルプリトレーニング言語モデル「KeBioLM」を提案します。
具体的には、PubMedアブストラクトからエンティティを抽出し、UMLSにリンクします。
次に、まずテキストのみのエンコーディング層を適用してエンティティ表現を学習し、集合エンティティ表現にテキストエンティティ融合エンコーディングを適用するナレッジアウェア言語モデルを訓練する。
論文 参考訳(メタデータ) (2021-04-21T03:57:26Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Cross-lingual Entity Alignment with Adversarial Kernel Embedding and
Adversarial Knowledge Translation [35.77482102674059]
言語間のエンティティアライメントは、しばしば特徴的不整合からシーケンス的コンテキスト無意識の課題に悩まされる。
本稿では,言語間エンティティアライメント(DAEA)のための2つの対向学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-16T00:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。