論文の概要: Automatic Biomedical Term Clustering by Learning Fine-grained Term
Representations
- arxiv url: http://arxiv.org/abs/2204.00391v1
- Date: Fri, 1 Apr 2022 12:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 20:05:14.282245
- Title: Automatic Biomedical Term Clustering by Learning Fine-grained Term
Representations
- Title(参考訳): きめ細かい用語表現の学習による生物医学用語の自動クラスタリング
- Authors: Sihang Zeng, Zheng Yuan, Sheng Yu
- Abstract要約: 最先端の用語埋め込みは、事前訓練された言語モデルを利用して用語をエンコードし、知識グラフからの同義語と関係知識を使用して、対照的な学習を導く。
これらの埋め込みは、バイオメディカルな用語クラスタリングの失敗につながる小さなテキストの違いに敏感ではない。
この問題を軽減するため,動的ハード・ポジティと負のサンプルを提供することにより,プレトレーニング項埋め込みにおけるサンプリング戦略を調整した。
我々は提案手法をCODER++と命名し,新たにリリースされたBIOSというバイオメディカル知識グラフのバイオメディカル概念のクラスタリングに適用した。
- 参考スコア(独自算出の注目度): 0.8154691566915505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Term clustering is important in biomedical knowledge graph construction.
Using similarities between terms embedding is helpful for term clustering.
State-of-the-art term embeddings leverage pretrained language models to encode
terms, and use synonyms and relation knowledge from knowledge graphs to guide
contrastive learning. These embeddings provide close embeddings for terms
belonging to the same concept. However, from our probing experiments, these
embeddings are not sensitive to minor textual differences which leads to
failure for biomedical term clustering. To alleviate this problem, we adjust
the sampling strategy in pretraining term embeddings by providing dynamic hard
positive and negative samples during contrastive learning to learn fine-grained
representations which result in better biomedical term clustering. We name our
proposed method as CODER++, and it has been applied in clustering biomedical
concepts in the newly released Biomedical Knowledge Graph named BIOS.
- Abstract(参考訳): 用語クラスタリングは生物医学的知識グラフ構築において重要である。
用語埋め込み間の類似性の利用は、用語クラスタリングに有用である。
最先端の用語埋め込みは、事前訓練された言語モデルを利用して用語をエンコードし、知識グラフから同義語と関係知識を使って対照的な学習を導く。
これらの埋め込みは、同じ概念に属する項に対して密接な埋め込みを与える。
しかし,本実験では,これらの埋め込みは,バイオメディカルな用語クラスタリングの失敗につながる小さなテキスト差に敏感ではない。
この問題を軽減するため,比較学習中に動的に強正・負のサンプルを供給し,バイオメディカルな用語のクラスタリングの改善をもたらす微細な表現を学習することで,事前学習におけるサンプリング戦略を調整する。
我々は提案手法をCODER++と命名し,新たにリリースされたBIOSというバイオメディカル知識グラフのバイオメディカル概念のクラスタリングに適用した。
関連論文リスト
- Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - CoRTEx: Contrastive Learning for Representing Terms via Explanations
with Applications on Constructing Biomedical Knowledge Graphs [9.328980260014216]
UMLS(Unified Medical Language System)で訓練された従来の対照的な学習モデルは、難解な用語をクラスタリングするのに苦労した。
言語モデル(LLM)からの世界知識を活用して、項表現を強化し、項クラスタリングを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-13T10:29:34Z) - Hierarchical Pretraining for Biomedical Term Embeddings [4.69793648771741]
階層データに基づく新しいバイオメディカル用語表現モデルであるHiPrBERTを提案する。
HiPrBERTは階層的な情報からペアワイズ距離を効果的に学習し,さらにバイオメディカルな応用に極めて有用な埋め込みを実現できることを示す。
論文 参考訳(メタデータ) (2023-07-01T08:16:00Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - BioLORD: Learning Ontological Representations from Definitions (for
Biomedical Concepts and their Textual Descriptions) [17.981285086380147]
BioLORDは、臨床文章や生物医学的概念に意味のある表現を創造するための新しい事前学習戦略である。
生物医学的名称は必ずしも自己説明的ではないため、しばしば非意味的な表現をもたらす。
BioLORDは、その概念表現を定義を用いて基礎づけ、マルチリレーショナルな知識グラフから派生した短い記述によってこの問題を克服している。
論文 参考訳(メタデータ) (2022-10-21T11:43:59Z) - LifeLonger: A Benchmark for Continual Disease Classification [59.13735398630546]
MedMNISTコレクションの連続的な疾患分類のためのベンチマークであるLifeLongerを紹介する。
タスクとクラスでの病気の漸進的な学習は、モデルをスクラッチから再トレーニングすることなく、新しいサンプルを分類する問題に対処する。
クロスドメインインクリメンタル学習は、これまで得られた知識を維持しながら、異なる機関から派生したデータセットを扱う問題に対処する。
論文 参考訳(メタデータ) (2022-04-12T12:25:05Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - Federated Semi-supervised Medical Image Classification via Inter-client
Relation Matching [58.26619456972598]
フェデレートラーニング(FL)は、ディープ・ネットワークのトレーニングのために、分散医療機関とのコラボレーションで人気が高まっている。
本報告では,実践的かつ困難なFL問題であるtextitFederated Semi-supervised Learning (FSSL)について検討する。
本稿では, 従来の整合性正規化機構を改良し, クライアント間関係マッチング方式を提案する。
論文 参考訳(メタデータ) (2021-06-16T07:58:00Z) - End-to-end Biomedical Entity Linking with Span-based Dictionary Matching [5.273138059454523]
病名認識と正常化は、生物医学的なテキストマイニングの基本的なプロセスです。
本研究では,スパン表現と辞書マッチング機能を組み合わせた新しいエンドツーエンドアプローチを提案する。
我々のモデルは、ニューラルネットワークモデルの性能を維持しながら辞書を参照することで、目に見えない概念を扱う。
論文 参考訳(メタデータ) (2021-04-21T12:24:12Z) - Disease Normalization with Graph Embeddings [12.70213916725476]
NCBI 病性ベンチマークコーパスを用いて,本手法の訓練と試験を行った。
本稿では,分類学で利用可能な語彙情報とともに,MeSHのグラフィカルな構造を活用することで病名を表現することを提案する。
また、ニューラルネームのエンティティ認識モデルと、マルチタスク学習によるグラフベースのエンティティリンク手法を組み合わせることで、NCBIコーパスにおける疾患認識が改善されることを示す。
論文 参考訳(メタデータ) (2020-10-24T16:25:05Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。