論文の概要: Self-Supervised Detection of Contextual Synonyms in a Multi-Class
Setting: Phenotype Annotation Use Case
- arxiv url: http://arxiv.org/abs/2109.01935v1
- Date: Sat, 4 Sep 2021 21:35:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 08:09:29.099465
- Title: Self-Supervised Detection of Contextual Synonyms in a Multi-Class
Setting: Phenotype Annotation Use Case
- Title(参考訳): 多クラス設定における文脈同期の自己監督検出:現象型アノテーション使用例
- Authors: Jingqing Zhang, Luis Bolanos, Tong Li, Ashwani Tanwar, Guilherme
Freire, Xian Yang, Julia Ive, Vibhor Gupta, Yike Guo
- Abstract要約: 文脈的単語埋め込みは文脈的同義語を検出する強力なツールである。
本研究では,浅部マッチングによって生成されたデータに基づいて,概念の文脈的同義性を検出できる自己教師付き事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 11.912581294872767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextualised word embeddings is a powerful tool to detect contextual
synonyms. However, most of the current state-of-the-art (SOTA) deep learning
concept extraction methods remain supervised and underexploit the potential of
the context. In this paper, we propose a self-supervised pre-training approach
which is able to detect contextual synonyms of concepts being training on the
data created by shallow matching. We apply our methodology in the sparse
multi-class setting (over 15,000 concepts) to extract phenotype information
from electronic health records. We further investigate data augmentation
techniques to address the problem of the class sparsity. Our approach achieves
a new SOTA for the unsupervised phenotype concept annotation on clinical text
on F1 and Recall outperforming the previous SOTA with a gain of up to 4.5 and
4.0 absolute points, respectively. After fine-tuning with as little as 20\% of
the labelled data, we also outperform BioBERT and ClinicalBERT. The extrinsic
evaluation on three ICU benchmarks also shows the benefit of using the
phenotypes annotated by our model as features.
- Abstract(参考訳): contextized word embeddedsは文脈的同義語を検出する強力なツールである。
しかし、現在の最先端(SOTA)深層学習の概念抽出手法の多くは、文脈のポテンシャルを監督し、過小評価している。
本稿では,浅層マッチングによって生成されたデータに基づいて,概念の文脈的同義性を検出できる自己教師型事前学習手法を提案する。
本手法は,電子健康記録から表現型情報を抽出するために,スパースマルチクラス設定(15,000以上の概念)に適用する。
さらに,クラス空間の問題に対処するためのデータ拡張手法について検討する。
提案手法では,F1 と Recall がそれぞれ 4.5 点,4.0 点を達成し,従来の SOTA よりも高い性能を示した。
ラベル付きデータの20倍の精度で微調整を行った結果,BioBERT と ClinicalBERT も上回った。
また、3つのICUベンチマークの外部評価は、我々のモデルで注釈付けされた表現型を特徴として活用する利点を示す。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - An Energy-based Model for Word-level AutoCompletion in Computer-aided Translation [97.3797716862478]
Word-level AutoCompletion (WLAC) は、コンピュータ支援翻訳における報奨だが挑戦的なタスクである。
既存の作業は、入力コンテキストの隠れベクターを対応するラベルにマッピングするニューラルネットワークに基づく分類モデルを通じて、このタスクに対処する。
そこで本研究では,WLACのエネルギーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:07:19Z) - Large-scale investigation of weakly-supervised deep learning for the
fine-grained semantic indexing of biomedical literature [7.171698704686836]
本研究では,MeSH概念のレベルでのアノテーションの自動修正手法を提案する。
提案手法は,デクリプタに促進された概念に基づいて,大規模なふりかえりシナリオに基づいて評価する。
論文 参考訳(メタデータ) (2023-01-23T10:33:22Z) - PromptCAL: Contrastive Affinity Learning via Auxiliary Prompts for
Generalized Novel Category Discovery [39.03732147384566]
Generalized Novel Category Discovery (GNCD) 設定は、既知のクラスや新しいクラスから来るラベルなしのトレーニングデータを分類することを目的としている。
本稿では,この課題に対処するために,PromptCALと呼ばれる補助視覚プロンプトを用いたコントラスト親和性学習法を提案する。
提案手法は,クラストークンと視覚的プロンプトのための既知のクラスと新しいクラスのセマンティッククラスタリングを改善するために,信頼性の高いペアワイズサンプル親和性を発見する。
論文 参考訳(メタデータ) (2022-12-11T20:06:14Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Inserting Information Bottlenecks for Attribution in Transformers [46.77580577396633]
ブラックボックスモデルにおける各特徴のアトリビューションを分析するために,情報ボトルネックを適用した。
本手法の有効性を帰属性の観点から示し,情報がどのように層を流れるのかを考察する。
論文 参考訳(メタデータ) (2020-12-27T00:35:43Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Multi-domain Clinical Natural Language Processing with MedCAT: the
Medical Concept Annotation Toolkit [5.49956798378633]
オープンソースMedical Concept EHR Toolkit(MedMedCAT)について紹介する。
UMLS/SNOMED-CTを含む任意の概念語彙を用いて概念を抽出するための、新しい自己教師型機械学習アルゴリズムを提供する。
オープンデータセットからUMLS概念を抽出する際の性能改善を示す。
SNOMED-CTの実際の検証は、ロンドンの3大病院で、17万件の臨床記録から8.8Bワード以上の自己監督訓練が実施されている。
論文 参考訳(メタデータ) (2020-10-02T19:01:02Z) - PhenoTagger: A Hybrid Method for Phenotype Concept Recognition using
Human Phenotype Ontology [6.165755812152143]
PhenoTaggerは、辞書と機械学習に基づく手法を組み合わせて、構造化されていないテキストの概念を認識するハイブリッド手法である。
提案手法は2つのHPOコーパスを用いて検証し,PhenoTaggerが従来の手法と比較した。
論文 参考訳(メタデータ) (2020-09-17T18:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。