論文の概要: Bi-Encoders based Species Normalization -- Pairwise Sentence Learning to
Rank
- arxiv url: http://arxiv.org/abs/2310.14366v1
- Date: Sun, 22 Oct 2023 17:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:09:54.286741
- Title: Bi-Encoders based Species Normalization -- Pairwise Sentence Learning to
Rank
- Title(参考訳): バイエンコーダに基づく種正規化 -- ペアワイズな文章のランク付け
- Authors: Zainab Awan, Tim Kahlke, Peter Ralph and Paul Kennedy
- Abstract要約: 本稿では、名前付きエンティティ正規化のための新しい深層学習手法を提案し、問題をランク付けするペアワイズ学習として扱う。
本研究は,種の実体型に関する実験を行い,その手法を最先端技術に対して評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Motivation: Biomedical named-entity normalization involves connecting
biomedical entities with distinct database identifiers in order to facilitate
data integration across various fields of biology. Existing systems for
biomedical named entity normalization heavily rely on dictionaries, manually
created rules, and high-quality representative features such as lexical or
morphological characteristics. However, recent research has investigated the
use of neural network-based models to reduce dependence on dictionaries,
manually crafted rules, and features. Despite these advancements, the
performance of these models is still limited due to the lack of sufficiently
large training datasets. These models have a tendency to overfit small training
corpora and exhibit poor generalization when faced with previously unseen
entities, necessitating the redesign of rules and features. Contribution: We
present a novel deep learning approach for named entity normalization, treating
it as a pair-wise learning to rank problem. Our method utilizes the widely-used
information retrieval algorithm Best Matching 25 to generate candidate
concepts, followed by the application of bi-directional encoder representation
from the encoder (BERT) to re-rank the candidate list. Notably, our approach
eliminates the need for feature-engineering or rule creation. We conduct
experiments on species entity types and evaluate our method against
state-of-the-art techniques using LINNAEUS and S800 biomedical corpora. Our
proposed approach surpasses existing methods in linking entities to the NCBI
taxonomy. To the best of our knowledge, there is no existing neural
network-based approach for species normalization in the literature.
- Abstract(参考訳): モチベーション(Motivation: Biomedical Name-entity normalization)とは、生物の様々な分野にまたがるデータ統合を容易にするために、生物医学的な実体と異なるデータベース識別子を結びつけることである。
既存の生物医学的実体正規化システムは辞書、手動で作成した規則、語彙的または形態的特徴のような質の高い代表的特徴に大きく依存している。
しかし、近年の研究では、辞書、手作業による規則、特徴への依存を減らすためにニューラルネットワークベースのモデルの使用が研究されている。
これらの進歩にもかかわらず、十分な大規模なトレーニングデータセットがないため、これらのモデルのパフォーマンスはまだ限られている。
これらのモデルは、小さなトレーニングコーパスに過度に適合する傾向があり、以前は目に見えないエンティティに直面すると一般化が不十分であり、ルールや特徴の再設計を必要とする。
コントリビューション: 名前付きエンティティ正規化のための新しい深層学習手法を提案し, 問題をランク付けするペアワイズ学習として扱う。
提案手法では,広く使用されている情報検索アルゴリズムBest Matching 25を用いて候補概念を生成し,次にエンコーダ(BERT)から双方向エンコーダ表現を適用して候補リストを再ランクする。
特に、我々のアプローチは機能エンジニアリングやルール作成の必要性を排除しています。
種実体型に関する実験を行い,linnaeusとs800バイオメディカルコーパスを用いた最先端技術に対する評価を行った。
提案手法は,既存のncbi分類法を超越する手法である。
私たちの知る限りでは、文献に種正規化のためのニューラルネットワークベースのアプローチは存在しません。
関連論文リスト
- Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Multi-level biomedical NER through multi-granularity embeddings and
enhanced labeling [3.8599767910528917]
本稿では,複数のモデルの強みを統合するハイブリッドアプローチを提案する。
BERTは、文脈化された単語の埋め込み、文字レベルの情報キャプチャのための事前訓練されたマルチチャネルCNN、およびテキスト内の単語間の依存関係のシーケンスラベリングとモデル化のためのBiLSTM + CRFを提供する。
我々は、ベンチマークi2b2/2010データセットを用いて、F1スコア90.11を達成する。
論文 参考訳(メタデータ) (2023-12-24T21:45:36Z) - Nested Named Entity Recognition from Medical Texts: An Adaptive Shared
Network Architecture with Attentive CRF [53.55504611255664]
ネスト現象によるジレンマを解決するために,ASACと呼ばれる新しい手法を提案する。
提案手法は,適応共有(AS)部と注意条件付きランダムフィールド(ACRF)モジュールの2つの鍵モジュールを含む。
我々のモデルは、異なるカテゴリのエンティティ間の暗黙の区別と関係をキャプチャすることで、より良いエンティティ表現を学ぶことができる。
論文 参考訳(メタデータ) (2022-11-09T09:23:56Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z) - End-to-end Biomedical Entity Linking with Span-based Dictionary Matching [5.273138059454523]
病名認識と正常化は、生物医学的なテキストマイニングの基本的なプロセスです。
本研究では,スパン表現と辞書マッチング機能を組み合わせた新しいエンドツーエンドアプローチを提案する。
我々のモデルは、ニューラルネットワークモデルの性能を維持しながら辞書を参照することで、目に見えない概念を扱う。
論文 参考訳(メタデータ) (2021-04-21T12:24:12Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - A Lightweight Neural Model for Biomedical Entity Linking [1.8047694351309205]
本論文では,生物医学的実体連携のための軽量ニューラル手法を提案する。
本手法では,アライメント層とアライメント機構を用いて参照とエンティティ名の違いをキャプチャする。
私達のモデルは標準的な評価のベンチマークの前の仕事と競争です。
論文 参考訳(メタデータ) (2020-12-16T10:34:37Z) - Domain Generalization for Medical Imaging Classification with
Linear-Dependency Regularization [59.5104563755095]
本稿では,医用画像分類分野におけるディープニューラルネットワークの一般化能力向上のための,シンプルだが効果的なアプローチを提案する。
医用画像の領域変数がある程度コンパクトであることに感銘を受けて,変分符号化による代表的特徴空間の学習を提案する。
論文 参考訳(メタデータ) (2020-09-27T12:30:30Z) - Exemplar Auditing for Multi-Label Biomedical Text Classification [0.4873362301533824]
我々は、最近提案されたゼロショットシーケンスラベリング手法「畳み込み分解による教師付きラベリング」を一般化する。
この手法は"イントロスペクション(introspection)"と分類され、推論時間予測のきめ細かい特徴を最も近い隣人に関連付ける。
提案手法は,医療従事者に対して,モデルの予測を駆動する健全な特徴を理解する上で,競争力のある分類モデルと尋問メカニズムの両方を提供する。
論文 参考訳(メタデータ) (2020-04-07T02:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。