論文の概要: Low Resource Recognition and Linking of Biomedical Concepts from a Large
Ontology
- arxiv url: http://arxiv.org/abs/2101.10587v2
- Date: Wed, 27 Jan 2021 18:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:57:31.701414
- Title: Low Resource Recognition and Linking of Biomedical Concepts from a Large
Ontology
- Title(参考訳): 大規模オントロジーからのバイオメディカル概念の低リソース認識とリンク
- Authors: Sunil Mohan and Rico Angell and Nick Monath and Andrew McCallum
- Abstract要約: 生物医学論文のデータベースで最も有名なPubMedは、これらのアノテーションを追加するために人間のキュレーターに依存しています。
提案手法は,従来の認識/リンクとセマンティックインデックスに基づく評価において,UMLSの新たな最先端結果を実現する。
- 参考スコア(独自算出の注目度): 30.324906836652367
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tools to explore scientific literature are essential for scientists,
especially in biomedicine, where about a million new papers are published every
year. Many such tools provide users the ability to search for specific entities
(e.g. proteins, diseases) by tracking their mentions in papers. PubMed, the
most well known database of biomedical papers, relies on human curators to add
these annotations. This can take several weeks for new papers, and not all
papers get tagged. Machine learning models have been developed to facilitate
the semantic indexing of scientific papers. However their performance on the
more comprehensive ontologies of biomedical concepts does not reach the levels
of typical entity recognition problems studied in NLP. In large part this is
due to their low resources, where the ontologies are large, there is a lack of
descriptive text defining most entities, and labeled data can only cover a
small portion of the ontology. In this paper, we develop a new model that
overcomes these challenges by (1) generalizing to entities unseen at training
time, and (2) incorporating linking predictions into the mention segmentation
decisions. Our approach achieves new state-of-the-art results for the UMLS
ontology in both traditional recognition/linking (+8 F1 pts) as well as
semantic indexing-based evaluation (+10 F1 pts).
- Abstract(参考訳): 科学文献を探索するツールは科学者にとって不可欠であり、特にバイオメディシンでは毎年100万件の論文が発行されている。
このようなツールの多くは、特定のエンティティ(例えば)を検索する機能を提供する。
タンパク質、病気) 論文の言及を追跡すること。
生物医学論文のデータベースで最も有名なPubMedは、これらのアノテーションを追加するために人間のキュレーターに依存しています。
これは新しい論文に数週間かかり、すべての論文がタグ付けされるわけではない。
科学論文のセマンティックインデックス作成を容易にするために機械学習モデルが開発された。
しかし、バイオメディカル概念のより包括的なオントロジーにおけるそれらの性能は、NLPで研究される典型的な実体認識問題のレベルに達しない。
これは、オントロジーが大きく、ほとんどのエンティティを定義する記述的テキストが欠如しており、ラベル付きデータはオントロジーのごく一部しかカバーできないためである。
本稿では,(1)訓練時に見つからないエンティティに一般化し,(2)参照セグメンテーション決定にリンク予測を組み込むことにより,これらの課題を克服する新しいモデルを開発する。
提案手法は,従来の認識/リンク(+8 F1 pts)とセマンティックインデックスに基づく評価(+10 F1 pts)において,UMLSオントロジーの新たな最先端結果を実現する。
関連論文リスト
- Ontology Embedding: A Survey of Methods, Applications and Resources [54.3453925775069]
オントロジはドメイン知識とメタデータを表現するために広く使われている。
1つの簡単な解決策は、統計分析と機械学習を統合することである。
埋め込みに関する多くの論文が出版されているが、体系的なレビューの欠如により、研究者はこの分野の包括的な理解を妨げている。
論文 参考訳(メタデータ) (2024-06-16T14:49:19Z) - Graph-Based Retriever Captures the Long Tail of Biomedical Knowledge [2.2814097119704058]
大規模言語モデル(LLM)は、膨大な知識を要約して提示することで、情報の検索方法を変えつつある。
LLMはトレーニングセットから最も頻繁に見られる情報を強調し、まれな情報を無視する傾向があります。
本稿では,これらのクラスタをダウンサンプリングし,情報過負荷問題を緩和するために知識グラフを活用する新しい情報検索手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:31:11Z) - Multi-level biomedical NER through multi-granularity embeddings and
enhanced labeling [3.8599767910528917]
本稿では,複数のモデルの強みを統合するハイブリッドアプローチを提案する。
BERTは、文脈化された単語の埋め込み、文字レベルの情報キャプチャのための事前訓練されたマルチチャネルCNN、およびテキスト内の単語間の依存関係のシーケンスラベリングとモデル化のためのBiLSTM + CRFを提供する。
我々は、ベンチマークi2b2/2010データセットを用いて、F1スコア90.11を達成する。
論文 参考訳(メタデータ) (2023-12-24T21:45:36Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Improving Biomedical Abstractive Summarisation with Knowledge
Aggregation from Citation Papers [24.481854035628434]
既存の言語モデルは、バイオメディカルの専門家が生み出したものと同等の技術的要約を生成するのに苦労している。
本稿では,引用論文からドメイン固有の知識を統合する,新たな注目に基づく引用集約モデルを提案する。
我々のモデルは最先端のアプローチより優れており、抽象的なバイオメディカルテキスト要約の大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T09:56:46Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z) - Domain-Specific Pretraining for Vertical Search: Case Study on
Biomedical Literature [67.4680600632232]
自己教師型学習は、アノテーションのボトルネックを克服するための有望な方向として現れました。
本稿では,ドメイン固有の事前学習に基づく垂直探索手法を提案する。
我々のシステムはPubMed上で何千万もの記事にスケールでき、Microsoft Biomedical Searchとしてデプロイされている。
論文 参考訳(メタデータ) (2021-06-25T01:02:55Z) - Recognising Biomedical Names: Challenges and Solutions [9.51284672475743]
本稿では,不連続な言及を認識可能な遷移ベースNERモデルを提案する。
また、適切な事前学習データを通知する費用対効果のアプローチも開発している。
我々の貢献は、特に新しいバイオメディカル・アプリケーションが必要な場合に、明らかな実践的意味を持つ。
論文 参考訳(メタデータ) (2021-06-23T08:20:13Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。