論文の概要: Detecting Idiomatic Multiword Expressions in Clinical Terminology using
Definition-Based Representation Learning
- arxiv url: http://arxiv.org/abs/2305.06801v1
- Date: Thu, 11 May 2023 13:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 14:53:57.032868
- Title: Detecting Idiomatic Multiword Expressions in Clinical Terminology using
Definition-Based Representation Learning
- Title(参考訳): 定義に基づく表現学習を用いた臨床用語の慣用的表現の検出
- Authors: Fran\c{c}ois Remy, Alfiya Khabibullina, Thomas Demeester
- Abstract要約: バイオメディカルなMWEの慣用性を評価するための有効なツールを開発し,それらのMWEの意味表現とそれらの構成成分の表現の重み付け平均との類似度に基づいて評価する。
以上の結果から,BioLORDモデルは他のモデルでは再現されず,慣用的なMWEを識別する能力が強いことが示唆された。
- 参考スコア(独自算出の注目度): 12.30055843580139
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper shines a light on the potential of definition-based semantic
models for detecting idiomatic and semi-idiomatic multiword expressions (MWEs)
in clinical terminology. Our study focuses on biomedical entities defined in
the UMLS ontology and aims to help prioritize the translation efforts of these
entities. In particular, we develop an effective tool for scoring the
idiomaticity of biomedical MWEs based on the degree of similarity between the
semantic representations of those MWEs and a weighted average of the
representation of their constituents. We achieve this using a biomedical
language model trained to produce similar representations for entity names and
their definitions, called BioLORD. The importance of this definition-based
approach is highlighted by comparing the BioLORD model to two other
state-of-the-art biomedical language models based on Transformer: SapBERT and
CODER. Our results show that the BioLORD model has a strong ability to identify
idiomatic MWEs, not replicated in other models. Our corpus-free idiomaticity
estimation helps ontology translators to focus on more challenging MWEs.
- Abstract(参考訳): 本稿では,臨床用語における慣用的・半慣用的な多語表現(MWE)を検出するための定義ベースセマンティックモデルの可能性に光を当てる。
本研究は,UMLSオントロジーで定義された生物医学的実体に着目し,これらの実体の翻訳作業の優先順位付けを支援することを目的とする。
特に, バイオメディカルなMWEの慣用性を評価するための有効なツールを開発し, それらのMWEの意味表現と, それらの構成成分の表現の重み付け平均との類似度に基づいて評価する。
我々は、BioLORDと呼ばれるエンティティ名とその定義に類似した表現を生成するよう訓練されたバイオメディカル言語モデルを用いてこれを実現する。
この定義に基づくアプローチの重要性は、BioLORDモデルと、Transformer: SapBERT と CODER に基づく2つの最先端のバイオメディカル言語モデルを比較することで強調される。
以上の結果から,BioLORDモデルは他のモデルでは再現されず,慣用的なMWEを識別する能力が強いことが示唆された。
コーパスのない慣用性推定は、オントロジー翻訳者がより挑戦的なMWEに集中するのに役立ちます。
関連論文リスト
- Efficient Biomedical Entity Linking: Clinical Text Standardization with Low-Resource Techniques [0.0]
複数の用語は、臨床エンティティと呼ばれることができる同じコア概念を参照することができる。
UMLS(Unified Medical Language System)のようなオントロジーは、何百万もの臨床エンティティを格納するために開発・維持されている。
そこで本稿では,エンティティの曖昧さを解消するために,コンテキストベースとコンテキストレスの省力化手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T01:14:33Z) - Multi-level biomedical NER through multi-granularity embeddings and
enhanced labeling [3.8599767910528917]
本稿では,複数のモデルの強みを統合するハイブリッドアプローチを提案する。
BERTは、文脈化された単語の埋め込み、文字レベルの情報キャプチャのための事前訓練されたマルチチャネルCNN、およびテキスト内の単語間の依存関係のシーケンスラベリングとモデル化のためのBiLSTM + CRFを提供する。
我々は、ベンチマークi2b2/2010データセットを用いて、F1スコア90.11を達成する。
論文 参考訳(メタデータ) (2023-12-24T21:45:36Z) - UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for
Biomedical Entity Recognition [4.865221751784403]
この研究は、UMLSからテキストシーケンスを抽出することにより、バイオメディカルトランスフォーマーエンコーダLMの言語表現を強化するためのデータ中心パラダイムに寄与する。
予め訓練したLMの拡張およびスクラッチからのトレーニングによる実験の結果から,複数の生物医学的,臨床的な名前付きエンティティ認識(NER)タスクにおける下流性能の向上が示された。
論文 参考訳(メタデータ) (2023-07-20T18:08:34Z) - Agentivit\`a e telicit\`a in GilBERTo: implicazioni cognitive [77.71680953280436]
本研究の目的は,トランスフォーマーに基づくニューラルネットワークモデルが語彙意味論を推論するかどうかを検討することである。
考慮される意味的性質は、テリシティ(定性とも組み合わされる)と作用性である。
論文 参考訳(メタデータ) (2023-07-06T10:52:22Z) - Biomedical Language Models are Robust to Sub-optimal Tokenization [30.175714262031253]
現代のバイオメディカル言語モデル(LM)は、標準的なドメイン固有のトークン化器を用いて事前訓練されている。
より正確なバイオメディカルトークン化器を用いたバイオメディカルLMの事前トレーニングでは,言語モデルの実体表現品質が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-30T13:35:24Z) - BioLORD: Learning Ontological Representations from Definitions (for
Biomedical Concepts and their Textual Descriptions) [17.981285086380147]
BioLORDは、臨床文章や生物医学的概念に意味のある表現を創造するための新しい事前学習戦略である。
生物医学的名称は必ずしも自己説明的ではないため、しばしば非意味的な表現をもたらす。
BioLORDは、その概念表現を定義を用いて基礎づけ、マルチリレーショナルな知識グラフから派生した短い記述によってこの問題を克服している。
論文 参考訳(メタデータ) (2022-10-21T11:43:59Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。