論文の概要: Hybrid X-Linker: Automated Data Generation and Extreme Multi-label Ranking for Biomedical Entity Linking
- arxiv url: http://arxiv.org/abs/2407.06292v1
- Date: Mon, 8 Jul 2024 18:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 22:13:05.984602
- Title: Hybrid X-Linker: Automated Data Generation and Extreme Multi-label Ranking for Biomedical Entity Linking
- Title(参考訳): ハイブリッドXリンク:バイオメディカルエンティティリンクのための自動データ生成と極多ラベルランキング
- Authors: Pedro Ruas, Fernando Gallego, Francisco J. Veredas, Francisco M. Couto,
- Abstract要約: 最先端のディープラーニングエンティティリンク手法は、広範囲にわたる人間のラベル付きデータに依存している。
現在のデータセットのサイズは限られており、バイオメディカルな概念が不十分である。
大規模トレーニングデータセットを作成するために,データの自動生成を提案する。
- 参考スコア(独自算出の注目度): 45.16091578348614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art deep learning entity linking methods rely on extensive human-labelled data, which is costly to acquire. Current datasets are limited in size, leading to inadequate coverage of biomedical concepts and diminished performance when applied to new data. In this work, we propose to automatically generate data to create large-scale training datasets, which allows the exploration of approaches originally developed for the task of extreme multi-label ranking in the biomedical entity linking task. We propose the hybrid X-Linker pipeline that includes different modules to link disease and chemical entity mentions to concepts in the MEDIC and the CTD-Chemical vocabularies, respectively. X-Linker was evaluated on several biomedical datasets: BC5CDR-Disease, BioRED-Disease, NCBI-Disease, BC5CDR-Chemical, BioRED-Chemical, and NLM-Chem, achieving top-1 accuracies of 0.8307, 0.7969, 0.8271, 0.9511, 0.9248, and 0.7895, respectively. X-Linker demonstrated superior performance in three datasets: BC5CDR-Disease, NCBI-Disease, and BioRED-Chemical. In contrast, SapBERT outperformed X-Linker in the remaining three datasets. Both models rely only on the mention string for their operations. The source code of X-Linker and its associated data are publicly available for performing biomedical entity linking without requiring pre-labelled entities with identifiers from specific knowledge organization systems.
- Abstract(参考訳): 最先端のディープラーニングエンティティリンク手法は、人為的な広範なデータに依存しており、取得にはコストがかかる。
現在のデータセットのサイズは限られており、バイオメディカルな概念のカバーが不十分になり、新しいデータに適用した場合のパフォーマンスが低下する。
本研究では,バイオメディカル・エンティティ・リンクタスクにおける極端なマルチラベル・ランキングのタスクのために開発されたアプローチを探索し,大規模トレーニングデータセットを作成するためのデータの自動生成を提案する。
MEDIC と CTD-Chemical vocabularies の概念に言及する化学物質と疾患を関連付けるモジュールを含むハイブリッドX-Linker パイプラインを提案する。
BC5CDR-Disease, BioRED-Disease, NCBI-Disease, BC5CDR-Chemical, BioRED-Chem, NLM-Chemの4つのバイオメディカルデータセットを用いて, それぞれ0.8307, 0.7969, 0.8271, 0.9511, 0.9248, 0.7895のトップ1アキュラシーを達成した。
X-Linkerは、BC5CDR-Disease、NCBI-Disease、BioRED-Chemicalの3つのデータセットで優れたパフォーマンスを示した。
対照的に、SapBERTは残りの3つのデータセットでX-Linkerを上回った。
どちらのモデルも、オペレーションの参照文字列のみに依存している。
X-Linkerとその関連データのソースコードは、特定の知識組織システムからの識別子と事前にラベル付けされたエンティティを必要とせずに、バイオメディカルエンティティリンクを実行するために公開されている。
関連論文リスト
- BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers [48.21255861863282]
BMRetrieverは、バイオメディカル検索を強化するための一連の密集したレトリバーである。
BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍まで上回っている。
論文 参考訳(メタデータ) (2024-04-29T05:40:08Z) - Biomedical Entity Linking as Multiple Choice Question Answering [48.74212158495695]
本稿では,バイオメディカルエンティティリンクを複数問合せ回答として扱う新モデルであるBioELQAを提案する。
まず、高速検索器を用いて候補エンティティを取得し、生成器に参照と候補エンティティを共同で提示し、選択したエンティティに関連付けられた予測シンボルを出力する。
長い尾を持つエンティティの一般化を改善するため、類似したラベル付きトレーニングインスタンスを手がかりとして検索し、ジェネレータの検索インスタンスで入力する。
論文 参考訳(メタデータ) (2024-02-23T08:40:38Z) - BioREx: Improving Biomedical Relation Extraction by Leveraging
Heterogeneous Datasets [7.7587371896752595]
生物医学的関係抽出(RE)は、生物医学的自然言語処理(NLP)研究における中心的な課題である。
本稿では、個々のデータセットのデータの均一性を体系的に解決し、それらを大きなデータセットに組み合わせるための新しいフレームワークを提案する。
評価の結果,BioRExは個々のデータセットでトレーニングしたベンチマークシステムよりも大幅に高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-06-19T22:48:18Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - BigBIO: A Framework for Data-Centric Biomedical Natural Language
Processing [13.30221348538759]
バイオメディカルNLPデータセット126以上のコミュニティライブラリであるBigBIOを紹介する。
BigBIOは、データセットとそのメタデータへのプログラムアクセスを通じて、再現可能なメタデータキュレーションを容易にする。
本稿では,タスクスキーマ,データ監査,コントリビューションガイドライン,および2つの実証的ユースケースの概要について論じる。
論文 参考訳(メタデータ) (2022-06-30T07:15:45Z) - A Distant Supervision Corpus for Extracting Biomedical Relationships
Between Chemicals, Diseases and Genes [35.372588846754645]
ChemDisGeneは、マルチクラスマルチラベル文書レベルのバイオメディカル関係抽出モデルのトレーニングと評価のための新しいデータセットである。
我々のデータセットには、化学物質、疾患、遺伝子への言及をラベル付けした80万のバイオメディカル研究が含まれている。
論文 参考訳(メタデータ) (2022-04-13T18:02:05Z) - BioIE: Biomedical Information Extraction with Multi-head Attention
Enhanced Graph Convolutional Network [9.227487525657901]
本稿では,バイオメディカルテキストと非構造化医療報告から関係を抽出するハイブリッドニューラルネットワークであるバイオメディカル情報抽出を提案する。
本研究は,2つの主要な生医学的関係抽出タスク,化学物質とタンパク質の相互作用,およびクロスホスピタル・パン・カンノロジー報告コーパスについて検討した。
論文 参考訳(メタデータ) (2021-10-26T13:19:28Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Clustering-based Inference for Biomedical Entity Linking [40.78384867437563]
本稿では,リンク決定を知識ベースエンティティにリンクするだけでなく,クラスタリングを通じて複数の言及をまとめてグループ化し,リンク予測を共同で行うモデルを提案する。
公開可能な最大のバイオメディカルデータセットの実験では、エンティティリンクの最良の独立予測を3.0ポイント精度で改善する。
論文 参考訳(メタデータ) (2020-10-21T19:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。