論文の概要: Automatic Glossary of Clinical Terminology: a Large-Scale Dictionary of
Biomedical Definitions Generated from Ontological Knowledge
- arxiv url: http://arxiv.org/abs/2306.00665v1
- Date: Thu, 1 Jun 2023 13:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 16:07:33.552728
- Title: Automatic Glossary of Clinical Terminology: a Large-Scale Dictionary of
Biomedical Definitions Generated from Ontological Knowledge
- Title(参考訳): 臨床用語の自動用語集:オントロジー知識による生物医学的定義の大規模辞書
- Authors: Fran\c{c}ois Remy, Thomas Demeester
- Abstract要約: 40,000以上の生物医学的概念とその関係の一部はSnomedCTに含まれている。
理解可能な言語における明確な定義や記述は、しばしば利用できない。
AGCTには、SnomedCTの概念のためのコンピュータ生成定義が422,070個含まれている。
- 参考スコア(独自算出の注目度): 14.531480317300856
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Background: More than 400,000 biomedical concepts and some of their
relationships are contained in SnomedCT, a comprehensive biomedical ontology.
However, their concept names are not always readily interpretable by
non-experts, or patients looking at their own electronic health records (EHR).
Clear definitions or descriptions in understandable language are often not
available. Therefore, generating human-readable definitions for biomedical
concepts might help make the information they encode more accessible and
understandable to a wider public.
Objective: In this article, we introduce the Automatic Glossary of Clinical
Terminology (AGCT), a large-scale biomedical dictionary of clinical concepts
generated using high-quality information extracted from the biomedical
knowledge contained in SnomedCT.
Methods: We generate a novel definition for every SnomedCT concept, after
prompting the OpenAI Turbo model, a variant of GPT 3.5, using a high-quality
verbalization of the SnomedCT relationships of the to-be-defined concept. A
significant subset of the generated definitions was subsequently judged by NLP
researchers with biomedical expertise on 5-point scales along the following
three axes: factuality, insight, and fluency.
Results: AGCT contains 422,070 computer-generated definitions for SnomedCT
concepts, covering various domains such as diseases, procedures, drugs, and
anatomy. The average length of the definitions is 49 words. The definitions
were assigned average scores of over 4.5 out of 5 on all three axes, indicating
a majority of factual, insightful, and fluent definitions.
Conclusion: AGCT is a novel and valuable resource for biomedical tasks that
require human-readable definitions for SnomedCT concepts. It can also serve as
a base for developing robust biomedical retrieval models or other applications
that leverage natural language understanding of biomedical knowledge.
- Abstract(参考訳): 背景: 包括的生物医学的オントロジーであるSnomedCTには, 400,000以上の生物医学的概念とその関係のいくつかが含まれている。
しかし、その概念名は必ずしも非専門家や自身の電子健康記録(EHR)を見ている患者によって容易に解釈できるわけではない。
理解可能な言語の明確な定義や記述は、しばしば利用できない。
したがって、バイオメディカルな概念のための人間可読な定義を生成することは、より広く一般にアクセスしやすく理解しやすい情報を生み出すのに役立つかもしれない。
目的:本論文では,SnomedCTに含まれるバイオメディカル知識から抽出した高品質な情報を用いて,臨床概念の大規模バイオメディカル辞書であるAGCTについて紹介する。
GPT 3.5の変種である OpenAI Turbo モデルを,to-be-defined 概念の SnomedCT 関係の高品質な言語化を用いて,各 SnomedCT 概念に対して新たな定義を生成する。
生成された定義のかなりのサブセットは、事実性、洞察、流布の3つの軸に沿った5点スケールのバイオメディカルな専門知識を持つNLP研究者によって判断された。
結果:AGCTには,SnomedCT概念のコンピュータ生成定義が422,070個含まれており,疾患,処置,薬物,解剖などの領域を網羅している。
定義の平均長は49語である。
これらの定義は3つの軸の5点中4.5点以上のスコアが割り当てられており、事実的、洞察的、流動的な定義の大部分を示している。
結論: AGCTは,SnomedCT概念の可読性定義を必要とする生物医学的タスクのための,新規かつ貴重な資源である。
また、バイオメディカル知識の自然言語理解を活用した堅牢なバイオメディカル検索モデルや他のアプリケーションの開発基盤としても機能する。
関連論文リスト
- Unified Representation of Genomic and Biomedical Concepts through Multi-Task, Multi-Source Contrastive Learning [45.6771125432388]
言語モデル(genEREL)を用いたジェノミクス表現について紹介する。
GENERELは遺伝学と生物医学の知識基盤を橋渡しするために設計されたフレームワークである。
本実験は,SNPと臨床概念のニュアンス関係を効果的に把握するgenERELの能力を実証するものである。
論文 参考訳(メタデータ) (2024-10-14T04:19:52Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Biomedical Language Models are Robust to Sub-optimal Tokenization [30.175714262031253]
現代のバイオメディカル言語モデル(LM)は、標準的なドメイン固有のトークン化器を用いて事前訓練されている。
より正確なバイオメディカルトークン化器を用いたバイオメディカルLMの事前トレーニングでは,言語モデルの実体表現品質が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-30T13:35:24Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - BioLORD: Learning Ontological Representations from Definitions (for
Biomedical Concepts and their Textual Descriptions) [17.981285086380147]
BioLORDは、臨床文章や生物医学的概念に意味のある表現を創造するための新しい事前学習戦略である。
生物医学的名称は必ずしも自己説明的ではないため、しばしば非意味的な表現をもたらす。
BioLORDは、その概念表現を定義を用いて基礎づけ、マルチリレーショナルな知識グラフから派生した短い記述によってこの問題を克服している。
論文 参考訳(メタデータ) (2022-10-21T11:43:59Z) - Generative Biomedical Entity Linking via Knowledge Base-Guided
Pre-training and Synonyms-Aware Fine-tuning [0.8154691566915505]
バイオメディカル・エンティティ・リンク(EL)のモデル化のための生成的アプローチを提案する。
そこで本研究では,KBの同義語と定義を用いた合成サンプルの構築により,KB指導による事前学習を提案する。
また、学習のための概念名を選択するためのシノニム対応の微調整を提案し、推論のためにデコーダプロンプトとマルチシンノニム制約付きプレフィックスツリーを提案する。
論文 参考訳(メタデータ) (2022-04-11T14:50:51Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - A Lightweight Neural Model for Biomedical Entity Linking [1.8047694351309205]
本論文では,生物医学的実体連携のための軽量ニューラル手法を提案する。
本手法では,アライメント層とアライメント機構を用いて参照とエンティティ名の違いをキャプチャする。
私達のモデルは標準的な評価のベンチマークの前の仕事と競争です。
論文 参考訳(メタデータ) (2020-12-16T10:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。