論文の概要: Ontology Enrichment from Texts: A Biomedical Dataset for Concept
Discovery and Placement
- arxiv url: http://arxiv.org/abs/2306.14704v1
- Date: Mon, 26 Jun 2023 13:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 13:15:57.121706
- Title: Ontology Enrichment from Texts: A Biomedical Dataset for Concept
Discovery and Placement
- Title(参考訳): テキストからのオントロジエンリッチメント:概念発見と配置のための生物医学データセット
- Authors: Hang Dong, Jiaoyan Chen, Yuan He, Ian Horrocks
- Abstract要約: 新しい概念のメンションはテキストに定期的に現れ、収穫とそれらを知識ベースに配置するために自動化されたアプローチを必要とする。
既存のデータセットは3つの問題に悩まされており、(i)新しい概念が事前に発見され、KB外の参照発見をサポートできないことを前提にしている。
我々は,最近のLarge Language Modelベースの手法である発見と概念配置について,アウト・オブ・KBを参照するためのデータセットを用いて評価を行う。
- 参考スコア(独自算出の注目度): 40.42598834305935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mentions of new concepts appear regularly in texts and require automated
approaches to harvest and place them into Knowledge Bases (KB), e.g.,
ontologies and taxonomies. Existing datasets suffer from three issues, (i)
mostly assuming that a new concept is pre-discovered and cannot support
out-of-KB mention discovery; (ii) only using the concept label as the input
along with the KB and thus lacking the contexts of a concept label; and (iii)
mostly focusing on concept placement w.r.t a taxonomy of atomic concepts,
instead of complex concepts, i.e., with logical operators. To address these
issues, we propose a new benchmark, adapting MedMentions dataset (PubMed
abstracts) with SNOMED CT versions in 2014 and 2017 under the Diseases
sub-category and the broader categories of Clinical finding, Procedure, and
Pharmaceutical / biologic product. We provide usage on the evaluation with the
dataset for out-of-KB mention discovery and concept placement, adapting recent
Large Language Model based methods.
- Abstract(参考訳): 新しい概念の言及は、テキストに定期的に現れ、それらを知識ベース(例えばオントロジーや分類法)に収穫し配置する自動化アプローチを必要とする。
既存のデータセットには3つの問題がある。
(i)新しい概念が事前に発見され、KB外言及発見をサポートできないと仮定すること。
(ii)概念ラベルを入力として、kbと共にのみ使用し、概念ラベルの文脈を欠いていること。
(iii) 概ね概念配置 w.r.t は、複雑な概念、すなわち論理演算子ではなく、原子概念の分類である。
これらの課題に対処するため,2014年と2017年にSNOMED CT版を応用したMedMentionsデータセット(PubMedAbstracts)を病原体サブカテゴリおよびより広範な臨床発見・処置・医薬品・生物製品に応用した新しいベンチマークを提案する。
本稿では,最近のLarge Language Model に基づく手法を用いて,アウト・オブ・KB参照の発見と概念配置のためのデータセットを用いて評価を行う。
関連論文リスト
- Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - A Textbook Remedy for Domain Shifts: Knowledge Priors for Medical Image Analysis [48.84443450990355]
ディープネットワークは、医学的なスキャンに適用すると、例外のない状況で失敗することが多いため、自然画像の解析において広く成功している。
胸部X線や皮膚病変画像の文脈において、異なる病院から採取したデータや、性別、人種などの人口統計学的変数によって構築されたデータなど、ドメインシフトに対するモデル感度に焦点をあてる。
医学教育からインスピレーションを得て,自然言語で伝達される明示的な医学知識を基盤としたディープネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T17:55:02Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - From Large Language Models to Knowledge Graphs for Biomarker Discovery
in Cancer [0.9437165725355702]
人工知能(AI)の難しいシナリオは、バイオメディカルデータを使用して、がんの病態の診断と治療のレコメンデーションを提供することである。
大規模知識グラフ(KG)は、意味的相互関連エンティティや関係に関する事実の統合と抽出によって構築することができる。
本稿では,癌特異的バイオマーカー発見と対話型QAを活用するドメインKGを開発する。
論文 参考訳(メタデータ) (2023-10-12T14:36:13Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - Self-Supervised Detection of Contextual Synonyms in a Multi-Class
Setting: Phenotype Annotation Use Case [11.912581294872767]
文脈的単語埋め込みは文脈的同義語を検出する強力なツールである。
本研究では,浅部マッチングによって生成されたデータに基づいて,概念の文脈的同義性を検出できる自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-04T21:35:01Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Low Resource Recognition and Linking of Biomedical Concepts from a Large
Ontology [30.324906836652367]
生物医学論文のデータベースで最も有名なPubMedは、これらのアノテーションを追加するために人間のキュレーターに依存しています。
提案手法は,従来の認識/リンクとセマンティックインデックスに基づく評価において,UMLSの新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2021-01-26T06:41:12Z) - Drug and Disease Interpretation Learning with Biomedical Entity
Representation Transformer [9.152161078854146]
自由形式のテキストにおける概念正規化は、あらゆるテキストマイニングパイプラインにおいて重要なステップです。
微調整BERTアーキテクチャに基づくシンプルで効果的な2段階のニューラルアプローチを提案する。
論文 参考訳(メタデータ) (2021-01-22T20:01:25Z) - Biomedical Concept Relatedness -- A large EHR-based benchmark [10.133874724214984]
医療へのAIの有望な応用は、電子健康記録から情報を取得することである。
このようなアプリケーションに対するAI手法の適合性は、概念の関連性を既知の関連性スコアで予測することによって検証される。
既存の医療概念関連データセットはすべて小さく、手書きのコンセプトペアで構成されている。
これらの問題を克服する新しい概念関連性ベンチマークをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2020-10-30T12:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。