論文の概要: BIBERT-Pipe on Biomedical Nested Named Entity Linking at BioASQ 2025
- arxiv url: http://arxiv.org/abs/2509.09725v1
- Date: Wed, 10 Sep 2025 09:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.856175
- Title: BIBERT-Pipe on Biomedical Nested Named Entity Linking at BioASQ 2025
- Title(参考訳): BIBERT-Pipe on Biomedical Nested Named Entity Linking at BioASQ 2025 (英語)
- Authors: Chunyu Li, Xindi Zheng, Siqi Liu,
- Abstract要約: 我々は,BioNNE 2025多言語バイオメディカルNested Named Entity Linking Share Task(英語とロシア語)について紹介する。
検索段階は、元の事前学習モデルを使用し、ランキング段階はドメイン固有の微調整を適用する。
BioNNE 2025のリーダーボードでは、バイリンガルベルト(BIBERT-Pipe)という2つのステージが多言語トラックで3位にランクされ、これらの最小でも原則化された修正の有効性と競争性を実証した。
- 参考スコア(独自算出の注目度): 5.329747408496098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity linking (EL) for biomedical text is typically benchmarked on English-only corpora with flat mentions, leaving the more realistic scenario of nested and multilingual mentions largely unexplored. We present our system for the BioNNE 2025 Multilingual Biomedical Nested Named Entity Linking shared task (English & Russian), closing this gap with a lightweight pipeline that keeps the original EL model intact and modifies only three task-aligned components: Two-stage retrieval-ranking. We leverage the same base encoder model in both stages: the retrieval stage uses the original pre-trained model, while the ranking stage applies domain-specific fine-tuning. Boundary cues. In the ranking stage, we wrap each mention with learnable [Ms] / [Me] tags, providing the encoder with an explicit, language-agnostic span before robustness to overlap and nesting. Dataset augmentation. We also automatically expand the ranking training corpus with three complementary data sources, enhancing coverage without extra manual annotation. On the BioNNE 2025 leaderboard, our two stage system, bilingual bert (BIBERT-Pipe), ranks third in the multilingual track, demonstrating the effectiveness and competitiveness of these minimal yet principled modifications. Code are publicly available at https://github.com/Kaggle-Competitions-Code/BioNNE-L.
- Abstract(参考訳): バイオメディカルテキストのためのエンティティリンク(EL)は通常、平らな言及で英語のみのコーパスでベンチマークされる。
我々は,BioNNE 2025の多言語バイオメディカルNested Named Entity Linking共有タスク(英語とロシア語)に対して,このギャップを埋めて,元のELモデルをそのまま維持し,2段階の検索レベルである3つのタスク整列コンポーネントのみを修正した軽量パイプラインを提案する。
検索段階はトレーニング済みのモデルを使用し、ランキング段階はドメイン固有の微調整を適用する。
境界線。
ランキングステージでは、各言及を学習可能な[Ms] / [Me]タグでラップし、重複とネストの堅牢性の前に、明示的で言語に依存しないスパンをエンコーダに提供する。
データセットの強化。
また、3つの補完的なデータソースでランキングトレーニングコーパスを自動的に拡張し、追加のマニュアルアノテーションなしでカバレッジを向上させる。
BioNNE 2025のリーダーボードでは、バイリンガルベルト(BIBERT-Pipe)という2つのステージが多言語トラックで3位にランクされ、これらの最小でも原則化された修正の有効性と競争性を実証した。
コードはhttps://github.com/Kaggle-Competitions-Code/BioNNE-Lで公開されている。
関連論文リスト
- ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish [39.81302995670643]
本研究は、医療エンティティリンクのための2相パイプラインを用いた新しいアプローチであるClinLinkerを提示する。
SapBERTベースのバイエンコーダに基づいており、その後クロスエンコーダで再ランクされ、スペインの医療概念に合わせた対照的な学習戦略に従って訓練されている。
論文 参考訳(メタデータ) (2024-04-09T15:04:27Z) - Advancing Multilingual Pre-training: TRIP Triangular Document-level
Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。
TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文 参考訳(メタデータ) (2022-12-15T12:14:25Z) - Building Chinese Biomedical Language Models via Multi-Level Text
Discrimination [24.992542216072152]
我々は,新しい事前学習フレームワークを組み込んだ中国語の生物医学的PLMであるeHealthを紹介した。
この新たなフレームワークは、トークンレベルとシーケンスレベルの両方の識別を通じて、eHealthを差別者として訓練する。
EHealthはトークンレベルとシーケンスレベルの両方で言語セマンティクスを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-14T10:43:28Z) - Fast and Effective Biomedical Entity Linking Using a Dual Encoder [48.86736921025866]
文書中の複数の言及を1ショットで解決するBERTベースのデュアルエンコーダモデルを提案する。
本稿では,提案モデルが既存のBERTモデルよりも複数倍高速であり,バイオメディカルエンティティリンクの精度に競争力があることを示す。
論文 参考訳(メタデータ) (2021-03-08T19:32:28Z) - Improved Biomedical Word Embeddings in the Transformer Era [2.978663539080876]
まずスキップグラム法を用いて単語と概念の埋め込みを学び、相関情報でさらに微調整します。
先行研究により開発された単語関連性について,複数のデータセットを用いた調律された静的組込みの評価を行う。
論文 参考訳(メタデータ) (2020-12-22T03:03:50Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - MULTISEM at SemEval-2020 Task 3: Fine-tuning BERT for Lexical Meaning [6.167728295758172]
SemEval 2020 Task 3: Graded Word similarity in Context (GWSC) に提出された MultiSEM システムについて述べる。
我々は,GWSCに関連する語彙意味タスクの微調整により,事前学習したBERTモデルに意味知識を注入する実験を行った。
既存の意味的注釈付きデータセットを用いて,文脈における語彙代用を自動生成することで,類似性を近似することを提案する。
論文 参考訳(メタデータ) (2020-07-24T09:50:26Z) - Students Need More Attention: BERT-based AttentionModel for Small Data
with Application to AutomaticPatient Message Triage [65.7062363323781]
BioBERT (Bidirectional Representations from Transformers for Biomedical Text Mining) に基づく新しいフレームワークを提案する。
LESA-BERTと呼ぶBERTの各層にラベル埋め込みを導入し、(ii)LESA-BERTを小さな変種に蒸留することにより、小さなデータセットで作業する際のオーバーフィッティングとモデルサイズを低減することを目指す。
アプリケーションとして,本フレームワークを用いて,患者ポータルメッセージトリアージのモデルを構築し,メッセージの緊急度を非緊急度,中度度,緊急度という3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2020-06-22T03:39:00Z) - CBAG: Conditional Biomedical Abstract Generation [1.2633386045916442]
浅層エンコーダ"条件"スタックと,マルチヘッドアテンションブロックの深層"言語モデル"スタックを備えたトランスフォーマーベースの条件言語モデルを提案する。
提案したタイトル,意図した出版年,キーワードのセットのみをバイオメディカルな要約として生成する。
論文 参考訳(メタデータ) (2020-02-13T17:11:33Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。