論文の概要: Token Classification for Disambiguating Medical Abbreviations
- arxiv url: http://arxiv.org/abs/2210.02487v1
- Date: Wed, 5 Oct 2022 18:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:14:49.136385
- Title: Token Classification for Disambiguating Medical Abbreviations
- Title(参考訳): 医学的特徴の曖昧化のためのトークン分類
- Authors: Mucahit Cevik, Sanaz Mohammad Jafari, Mitchell Myers, Savas Yildirim
- Abstract要約: 省略は避けられないが、医療テキストの重要な部分である。
標準化されたマッピングシステムの欠如は、曖昧な省略を困難かつ時間を要するタスクにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abbreviations are unavoidable yet critical parts of the medical text. Using
abbreviations, especially in clinical patient notes, can save time and space,
protect sensitive information, and help avoid repetitions. However, most
abbreviations might have multiple senses, and the lack of a standardized
mapping system makes disambiguating abbreviations a difficult and
time-consuming task. The main objective of this study is to examine the
feasibility of token classification methods for medical abbreviation
disambiguation. Specifically, we explore the capability of token classification
methods to deal with multiple unique abbreviations in a single text. We use two
public datasets to compare and contrast the performance of several transformer
models pre-trained on different scientific and medical corpora. Our proposed
token classification approach outperforms the more commonly used text
classification models for the abbreviation disambiguation task. In particular,
the SciBERT model shows a strong performance for both token and text
classification tasks over the two considered datasets. Furthermore, we find
that abbreviation disambiguation performance for the text classification models
becomes comparable to that of token classification only when postprocessing is
applied to their predictions, which involves filtering possible labels for an
abbreviation based on the training data.
- Abstract(参考訳): 略語は避けられないが、医学文献の重要な部分である。
略語、特に臨床患者ノートでは、時間と空間を節約し、機密情報を保護し、繰り返しを避けることができる。
しかし、ほとんどの省略形には複数の感覚があり、標準化されたマッピングシステムがないため、曖昧な省略形は困難で時間を要する。
本研究の目的は, 医用略語におけるトークン分類法の有効性を検討することである。
具体的には,トークン分類手法が単一テキストで複数の一意な省略を扱えるかを検討する。
2つの公開データセットを使用して、異なる科学および医学コーパスで事前トレーニングされた複数のトランスフォーマーモデルのパフォーマンスを比較し、比較します。
提案するトークン分類手法は,略語曖昧化タスクにおいて,より一般的なテキスト分類モデルよりも優れている。
特に、SciBERTモデルは、2つの考慮されたデータセットに対してトークンとテキストの分類タスクに対して強いパフォーマンスを示す。
さらに,テキスト分類モデルの省略化性能は,学習データに基づいて短縮用ラベルをフィルタリングすることで,後処理が予測に適用された場合にのみトークン分類に匹敵することがわかった。
関連論文リスト
- Blueprinting the Future: Automatic Item Categorization using
Hierarchical Zero-Shot and Few-Shot Classifiers [6.907552533477328]
本研究では,ゼロショットおよび少数ショット生成事前学習変換器(GPT)を用いた階層的項目分類手法を提案する。
検査ブループリントの階層的な性質はシームレスにナビゲートされ、複数のレベルの項目を階層的に分類することができる。
人工データによる初期シミュレーションは、この方法の有効性を示し、F1スコアで測定された平均精度92.91%を達成する。
論文 参考訳(メタデータ) (2023-12-06T15:51:49Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - Classifying Unstructured Clinical Notes via Automatic Weak Supervision [17.45660355026785]
クラスラベル記述のみから学習する、一般的な弱教師付きテキスト分類フレームワークを導入する。
我々は、事前訓練された言語モデルとデータプログラミングフレームワークに格納された言語ドメインの知識を活用して、テキストにコードラベルを割り当てる。
論文 参考訳(メタデータ) (2022-06-24T05:55:49Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Learning Image Labels On-the-fly for Training Robust Classification
Models [13.669654965671604]
ノイズの多いアノテーション(例えば、異なるアルゴリズムベースのラベル付け子から)を一緒に利用し、相互に分類タスクの学習に役立てることができるかを示す。
メタトレーニングベースのラベルサンプリングモジュールは、追加のバックプロパゲーションプロセスを通じてモデル学習の恩恵を受けるラベルに出席するように設計されている。
論文 参考訳(メタデータ) (2020-09-22T05:38:44Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - Exemplar Auditing for Multi-Label Biomedical Text Classification [0.4873362301533824]
我々は、最近提案されたゼロショットシーケンスラベリング手法「畳み込み分解による教師付きラベリング」を一般化する。
この手法は"イントロスペクション(introspection)"と分類され、推論時間予測のきめ細かい特徴を最も近い隣人に関連付ける。
提案手法は,医療従事者に対して,モデルの予測を駆動する健全な特徴を理解する上で,競争力のある分類モデルと尋問メカニズムの両方を提供する。
論文 参考訳(メタデータ) (2020-04-07T02:54:20Z) - Seeing The Whole Patient: Using Multi-Label Medical Text Classification
Techniques to Enhance Predictions of Medical Codes [2.158285012874102]
18,50,155ラベルの多ラベル医療用テキスト分類問題について報告する。
不均衡なデータに対して、頻繁に発生するラベルは、埋め込みに組み込まれた追加機能から最も恩恵を受けることを示す。
この研究の高次元埋め込みは公共用途に利用可能である。
論文 参考訳(メタデータ) (2020-03-29T02:19:30Z) - Structured Prediction with Partial Labelling through the Infimum Loss [85.4940853372503]
弱い監督の目標は、収集コストの安いラベル付け形式のみを使用してモデルを学習できるようにすることである。
これは、各データポイントに対して、実際のものを含むラベルのセットとして、監督がキャストされる不完全なアノテーションの一種です。
本稿では、構造化された予測と、部分的なラベリングを扱うための無限損失の概念に基づく統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-03-02T13:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。