論文の概要: MedPath: Multi-Domain Cross-Vocabulary Hierarchical Paths for Biomedical Entity Linking
- arxiv url: http://arxiv.org/abs/2511.10887v1
- Date: Fri, 14 Nov 2025 01:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.384948
- Title: MedPath: Multi-Domain Cross-Vocabulary Hierarchical Paths for Biomedical Entity Linking
- Title(参考訳): MedPath: バイオメディカルエンティティリンクのためのマルチドメインのクロスボキャブラリ階層パス
- Authors: Nishant Mishra, Wilker Aziz, Iacer Calixto,
- Abstract要約: 大規模およびマルチドメインのバイオメディカルEntity LinkingデータセットであるMedPathを提示する。
すべてのエンティティは、1)Unified Medical Language System(UMLS)の最新バージョンを使用して正規化され、2)他の62のバイオメディカル語彙にマッピングされた。
MedPathは、バイオメディカルNLPの新しい研究フロンティアを可能にし、セマンティックリッチで解釈可能なELシステムのトレーニングと評価を容易にする。
- 参考スコア(独自算出の注目度): 4.590229697778086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in biomedical Named Entity Recognition (NER) and Entity Linking (EL) is currently hindered by a fragmented data landscape, a lack of resources for building explainable models, and the limitations of semantically-blind evaluation metrics. To address these challenges, we present MedPath, a large-scale and multi-domain biomedical EL dataset that builds upon nine existing expert-annotated EL datasets. In MedPath, all entities are 1) normalized using the latest version of the Unified Medical Language System (UMLS), 2) augmented with mappings to 62 other biomedical vocabularies and, crucially, 3) enriched with full ontological paths -- i.e., from general to specific -- in up to 11 biomedical vocabularies. MedPath directly enables new research frontiers in biomedical NLP, facilitating training and evaluation of semantic-rich and interpretable EL systems, and the development of the next generation of interoperable and explainable clinical NLP models.
- Abstract(参考訳): バイオメディカルな名前付きエンティティ認識(NER)とエンティティリンク(EL)の進歩は、現在、断片化されたデータランドスケープ、説明可能なモデルを構築するためのリソースの欠如、セマンティック・ブラインド評価メトリクスの制限によって妨げられている。
これらの課題に対処するために、MedPathを紹介します。MedPathは、9つの既存のエキスパートアノテートされたELデータセットの上に構築された、大規模でマルチドメインのバイオメディカルなELデータセットです。
MedPathでは、すべての実体は
1)Unified Medical Language System(UMLS)の最新版を用いた正規化
2)他の62のバイオメディカル語彙にマッピングを付加し、重要なことに
3) 最大11の生物医学語彙において, 完全な存在論的経路, 一般から特定に至るまでの完全な存在論的経路が豊富である。
MedPathは、バイオメディカルNLPの新たな研究フロンティアを直接実現し、セマンティックリッチで解釈可能なELシステムのトレーニングと評価を容易にし、次世代の相互運用可能な、説明可能な臨床NLPモデルの開発を可能にしている。
関連論文リスト
- Automated Hierarchical Graph Construction for Multi-source Electronic Health Records [17.122817545326928]
我々は、ニューラルネットワークを用いた機関間で医療コードを整列する完全に自動化されたフレームワークであるMASHを提案する。
MASHは、事前訓練された言語モデル、共起パターン、テキスト記述、教師付きラベルからの情報を統合する。
不均一な臨床データのナビゲーションと理解を容易にする解釈可能な階層グラフを生成する。
論文 参考訳(メタデータ) (2025-09-08T11:45:59Z) - Biomedical Literature Q&A System Using Retrieval-Augmented Generation (RAG) [0.0]
本報告では, バイオメディカル文献質問応答システム(Q&A)について述べる。
このシステムは、PubMedの記事、キュレートされたQ&Aデータセット、医療百科事典など、さまざまなソースを統合している。
このシステムは一般の医療クエリとドメイン固有のタスクの両方をサポートし、乳がんの文献に焦点を絞った評価を行う。
論文 参考訳(メタデータ) (2025-09-05T21:29:52Z) - A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI [70.06771291117965]
PubMed Central Open Accessサブセットから派生したオープンソースのデータセットであるBiomedicaを紹介する。
Biomedicaには600万以上の科学論文と2400万の画像テキストペアが含まれている。
私たちは、Webサーバを通じてスケーラブルなストリーミングと検索APIを提供し、AIシステムとのシームレスな統合を容易にします。
論文 参考訳(メタデータ) (2025-03-26T05:56:46Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - Multi-level biomedical NER through multi-granularity embeddings and
enhanced labeling [3.8599767910528917]
本稿では,複数のモデルの強みを統合するハイブリッドアプローチを提案する。
BERTは、文脈化された単語の埋め込み、文字レベルの情報キャプチャのための事前訓練されたマルチチャネルCNN、およびテキスト内の単語間の依存関係のシーケンスラベリングとモデル化のためのBiLSTM + CRFを提供する。
我々は、ベンチマークi2b2/2010データセットを用いて、F1スコア90.11を達成する。
論文 参考訳(メタデータ) (2023-12-24T21:45:36Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Cross-Domain Data Integration for Named Entity Disambiguation in
Biomedical Text [5.008513565240167]
本稿では,一般的なテキスト知識ベースから医療領域へ構造的知識を伝達するクロスドメインデータ統合手法を提案する。
我々は,我々の統合手法を利用して構造資源を増強し,事前学習のための大規模なバイオメディカルNEDデータセットを生成する。
MedMentions と BC5CDR という2つのベンチマーク医学NEDデータセット上で, 最先端のパフォーマンスを実現するために, 構造知識を注入した事前学習モデルを構築した。
論文 参考訳(メタデータ) (2021-10-15T17:38:16Z) - COMETA: A Corpus for Medical Entity Linking in the Social Media [27.13349965075764]
われわれは、Redditの専門家がSNOMED CTへのリンクを付加した20万の英語バイオメディカルエンティティからなるCOMETAという新しいコーパスを紹介した。
私たちのコーパスは、スケールとカバレッジから多様性と品質まで、望ましい特性の組み合わせを満足しています。
2つの挑戦的な評価シナリオの下で、エンティティや概念に関する複雑な推論を行うことのできる、これらのシステムの能力に光を当てた。
論文 参考訳(メタデータ) (2020-10-07T09:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。