論文の概要: CoRTEx: Contrastive Learning for Representing Terms via Explanations
with Applications on Constructing Biomedical Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2312.08036v1
- Date: Wed, 13 Dec 2023 10:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 15:45:47.625601
- Title: CoRTEx: Contrastive Learning for Representing Terms via Explanations
with Applications on Constructing Biomedical Knowledge Graphs
- Title(参考訳): CoRTEx:バイオメディカル知識グラフ構築のための説明による用語表現のコントラスト学習
- Authors: Huaiyuan Ying, Zhengyun Zhao, Yang Zhao, Sihang Zeng, Sheng Yu
- Abstract要約: UMLS(Unified Medical Language System)で訓練された従来の対照的な学習モデルは、難解な用語をクラスタリングするのに苦労した。
言語モデル(LLM)からの世界知識を活用して、項表現を強化し、項クラスタリングを大幅に改善する。
- 参考スコア(独自算出の注目度): 9.328980260014216
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Objective: Biomedical Knowledge Graphs play a pivotal role in various
biomedical research domains. Concurrently, term clustering emerges as a crucial
step in constructing these knowledge graphs, aiming to identify synonymous
terms. Due to a lack of knowledge, previous contrastive learning models trained
with Unified Medical Language System (UMLS) synonyms struggle at clustering
difficult terms and do not generalize well beyond UMLS terms. In this work, we
leverage the world knowledge from Large Language Models (LLMs) and propose
Contrastive Learning for Representing Terms via Explanations (CoRTEx) to
enhance term representation and significantly improves term clustering.
Materials and Methods: The model training involves generating explanations for
a cleaned subset of UMLS terms using ChatGPT. We employ contrastive learning,
considering term and explanation embeddings simultaneously, and progressively
introduce hard negative samples. Additionally, a ChatGPT-assisted BIRCH
algorithm is designed for efficient clustering of a new ontology. Results: We
established a clustering test set and a hard negative test set, where our model
consistently achieves the highest F1 score. With CoRTEx embeddings and the
modified BIRCH algorithm, we grouped 35,580,932 terms from the Biomedical
Informatics Ontology System (BIOS) into 22,104,559 clusters with O(N) queries
to ChatGPT. Case studies highlight the model's efficacy in handling challenging
samples, aided by information from explanations. Conclusion: By aligning terms
to their explanations, CoRTEx demonstrates superior accuracy over benchmark
models and robustness beyond its training set, and it is suitable for
clustering terms for large-scale biomedical ontologies.
- Abstract(参考訳): 目的: バイオメディカル知識グラフは、様々なバイオメディカル研究領域において重要な役割を果たす。
同時に、用語クラスタリングはこれらの知識グラフを構築する上で重要なステップとして登場し、同義語を識別することを目指している。
知識の不足により、Unified Medical Language System (UMLS) で訓練された従来のコントラスト学習モデルは、難解な用語のクラスタリングに苦慮し、UMLS の用語をはるかに越えて一般化しない。
本研究では,Large Language Models (LLMs) からの世界知識を活用し,言語表現の強化と用語クラスタリングの大幅な向上を図るために,Contrastive Learning for Representing Terms via Explanations (CoRTEx)を提案する。
Materials and Methods: モデルトレーニングでは、ChatGPTを使用してUMLS用語のクリーン化されたサブセットの説明を生成する。
用語埋め込みと説明埋め込みを同時に考慮し,対照的な学習を行い,徐々に否定的なサンプルを導入する。
さらに,ChatGPTを用いたBIRCHアルゴリズムは,新しいオントロジーの効率的なクラスタリングを目的としている。
結果: クラスタリングテストセットとハードネガティブテストセットを確立した。
CoRTExの埋め込みと改良されたBIRCHアルゴリズムを用いて,バイオメディカルインフォマティクスオントロジーシステム(BIOS)から3,580,932の用語を22,104,559のクラスタに分類し,O(N)クエリをChatGPTに適用した。
ケーススタディでは、難解なサンプルを扱うモデルの有効性が強調され、説明からの情報によって支援される。
結論: 用語を説明に合わせることにより、cortexはベンチマークモデルよりも優れた精度とトレーニングセットを超えた堅牢性を示し、大規模生物医学オントロジーのクラスタリング用語に適している。
関連論文リスト
- Document-level Clinical Entity and Relation Extraction via Knowledge Base-Guided Generation [0.869967783513041]
統一医療言語システム(UMLS)の知識ベースを利用して医療概念を正確に識別する。
本フレームワークは、テキストに関連するUMLS概念を選択し、エンティティを抽出する際の言語モデルガイドのプロンプトと組み合わせる。
論文 参考訳(メタデータ) (2024-07-13T22:45:46Z) - Towards Ontology-Enhanced Representation Learning for Large Language Models [0.18416014644193066]
本稿では,知識を参照オントロジーで注入することで,埋め込み言語モデル(埋め込み言語モデル)の関心を高める新しい手法を提案する。
言語情報(概念同義語と記述)と構造情報(is-a関係)は、包括的な概念定義の集合をコンパイルするために使用される。
これらの概念定義は、対照的な学習フレームワークを使用して、ターゲットの埋め込み-LLMを微調整するために使用される。
論文 参考訳(メタデータ) (2024-05-30T23:01:10Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Interpretable Solutions for Breast Cancer Diagnosis with Grammatical
Evolution and Data Augmentation [0.15705429611931054]
我々は、新しい合成データ生成技術であるSTEMを用いて、文法進化(GE)によって生成されたモデルを訓練する方法を示す。
本手法はDigital Database for Screening Mammography(DDSM)とウィスコンシン乳癌(WBC)データセットで検証する。
GE由来のモデルは、解釈可能な解を維持しながら、最良のAUCを示すことを示す。
論文 参考訳(メタデータ) (2024-01-25T15:45:28Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - HiPrompt: Few-Shot Biomedical Knowledge Fusion via Hierarchy-Oriented
Prompting [33.1455954220194]
HiPromptは、監督効率の良い知識融合フレームワークである。
階層指向のプロンプトを通じて、大規模言語モデルの数発の推論能力を引き出す。
収集したKG-Hi-BKFベンチマークデータセットの実験的結果は、HiPromptの有効性を示している。
論文 参考訳(メタデータ) (2023-04-12T16:54:26Z) - RandomSCM: interpretable ensembles of sparse classifiers tailored for
omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。
モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文 参考訳(メタデータ) (2022-08-11T13:55:04Z) - Automatic Biomedical Term Clustering by Learning Fine-grained Term
Representations [0.8154691566915505]
最先端の用語埋め込みは、事前訓練された言語モデルを利用して用語をエンコードし、知識グラフからの同義語と関係知識を使用して、対照的な学習を導く。
これらの埋め込みは、バイオメディカルな用語クラスタリングの失敗につながる小さなテキストの違いに敏感ではない。
この問題を軽減するため,動的ハード・ポジティと負のサンプルを提供することにより,プレトレーニング項埋め込みにおけるサンプリング戦略を調整した。
我々は提案手法をCODER++と命名し,新たにリリースされたBIOSというバイオメディカル知識グラフのバイオメディカル概念のクラスタリングに適用した。
論文 参考訳(メタデータ) (2022-04-01T12:30:58Z) - Neighborhood Contrastive Learning for Novel Class Discovery [79.14767688903028]
我々は,クラスタリング性能に重要な識別表現を学習するために,Neighborhood Contrastive Learningという新しいフレームワークを構築した。
これらの2つの成分がクラスタリング性能に大きく寄与し、我々のモデルが最先端の手法よりも大きなマージンで優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-20T17:34:55Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - A Teacher-Student Framework for Semi-supervised Medical Image
Segmentation From Mixed Supervision [62.4773770041279]
そこで我々は,臓器と病変のセグメンテーションのための教師と学生のスタイルに基づくセミ教師付き学習フレームワークを開発した。
我々は,本モデルがバウンディングボックスの品質に対して堅牢であることを示し,フル教師付き学習手法と比較した性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T07:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。