論文の概要: OSLAT: Open Set Label Attention Transformer for Medical Entity Span
Extraction
- arxiv url: http://arxiv.org/abs/2207.05817v1
- Date: Tue, 12 Jul 2022 20:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 05:13:10.130492
- Title: OSLAT: Open Set Label Attention Transformer for Medical Entity Span
Extraction
- Title(参考訳): OSLAT:医療エンティティスパン抽出のためのオープンセットラベルアテンショントランス
- Authors: Raymond Li, Ilya Valmianski, Li Deng, Xavier Amatriain, Anitha Kannan
- Abstract要約: 我々はOSLAT(Open Set Label Attention Transformer)と呼ばれる新しいトランスアーキテクチャを提案する。
提案手法では,ラベル保持機構を用いて,興味のあるエンティティに関連するスパンを暗黙的に学習する。
これらのエンティティは、OSLATのトレーニング中に見えないエンティティを含む、フリーテキストとして提供することができ、モデルが非結合である場合でも、スパンを抽出することができる。
- 参考スコア(独自算出の注目度): 6.392638268995324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying spans in medical texts that correspond to medical entities is one
of the core steps for many healthcare NLP tasks such as ICD coding, medical
finding extraction, medical note contextualization, to name a few. Existing
entity extraction methods rely on a fixed and limited vocabulary of medical
entities and have difficulty with extracting entities represented by disjoint
spans. In this paper, we present a new transformer-based architecture called
OSLAT, Open Set Label Attention Transformer, that addresses many of the
limitations of the previous methods. Our approach uses the label-attention
mechanism to implicitly learn spans associated with entities of interest. These
entities can be provided as free text, including entities not seen during
OSLAT's training, and the model can extract spans even when they are disjoint.
To test the generalizability of our method, we train two separate models on two
different datasets, which have very low entity overlap: (1) a public discharge
notes dataset from hNLP, and (2) a much more challenging proprietary patient
text dataset "Reasons for Encounter" (RFE). We find that OSLAT models trained
on either dataset outperform rule-based and fuzzy string matching baselines
when applied to the RFE dataset as well as to the portion of hNLP dataset where
entities are represented by disjoint spans. Our code can be found at
https://github.com/curai/curai-research/tree/main/OSLAT.
- Abstract(参考訳): 医療機関に対応する医療用テキストのスパンの特定は、ICDコーディング、医療発見抽出、医療ノートの文脈化など、多くの医療NLPタスクのコアステップの1つである。
既存のエンティティ抽出法は、医療エンティティの固定的かつ限定的な語彙に依存しており、異種スパンで表されるエンティティの抽出が困難である。
本稿では,従来の手法の制約の多くに対処する,オープンセットラベルアテンショントランスフォーマ(open set label attention transformer)と呼ばれる新しいトランスフォーマティブベースのアーキテクチャを提案する。
提案手法はラベル保持機構を用いて,関心の実体に関連するスパンを暗黙的に学習する。
これらのエンティティは、OSLATのトレーニング中に見えないエンティティを含む、フリーテキストとして提供することができ、モデルが非結合である場合でも、スパンを抽出することができる。
本手法の一般化性をテストするため,1)hNLPからの公開吐出ノートデータセットと,(2)より難易度の高い患者用テキストデータセット"Reasons for Encounter"(RFE)の2つの異なるデータセット上で,エンティティオーバーラップの少ない2つのモデルをトレーニングした。
RFEデータセットに適用された場合,OSLATモデルは規則ベースとファジィ文字列マッチングベースラインのいずれにおいても,エンティティが不整合スパンで表現されるhNLPデータセットの一部にも適用できることがわかった。
私たちのコードはhttps://github.com/curai/curai-research/tree/main/OSLATで確認できます。
関連論文リスト
- Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - From Alignment to Entailment: A Unified Textual Entailment Framework for
Entity Alignment [17.70562397382911]
既存のメソッドは通常、エンティティのトリプルを埋め込みとしてエンコードし、埋め込みの整列を学ぶ。
我々は両トリプルを統一されたテキストシーケンスに変換し、EAタスクを双方向のテキストエンタテインメントタスクとしてモデル化する。
提案手法は,エンティティ間の2種類の情報の統合相関パターンを捕捉し,元のエンティティ情報間のきめ細かい相互作用を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T08:06:50Z) - Slot Filling for Biomedical Information Extraction [0.5330240017302619]
バイオメディカルIEの課題に対してスロットフィリングアプローチを提案する。
我々は、トランフォーマベースのバイエンコーダDense Passage RetrievalをTransformerベースのリーダーモデルと結合する提案パラダイムに従う。
論文 参考訳(メタデータ) (2021-09-17T14:16:00Z) - UniRE: A Unified Label Space for Entity Relation Extraction [67.53850477281058]
合同エンティティ関係抽出モデルでは、2つのサブタスクに対して2つの分離ラベル空間を設定する。
この設定は、エンティティとリレーション間の情報相互作用を妨げる可能性があると我々は主張する。
本研究では,2つのサブタスクのラベル空間における異なる処理を除去することを提案する。
論文 参考訳(メタデータ) (2021-07-09T08:09:37Z) - A Cascade Dual-Decoder Model for Joint Entity and Relation Extraction [18.66493402386152]
重なり合う三重項を抽出する効果的なカスケード二重復号器法を提案する。
我々のアプローチは単純であり、テキスト固有の関係デコーダと関係対応エンティティデコーダを含んでいる。
提案手法の一般化性を検証するために,実世界の露天採掘データセットと2つの公開データセットについて実験を行った。
論文 参考訳(メタデータ) (2021-06-27T07:42:05Z) - PharmKE: Knowledge Extraction Platform for Pharmaceutical Texts using
Transfer Learning [0.0]
PharmKEは、医薬品のセマンティック分析を徹底するために、いくつかの段階を通じてディープラーニングを適用するテキスト分析プラットフォームです。
この方法論は、正確なラベル付きトレーニングとテストデータセットの作成に使用され、カスタムエンティティラベリングタスクのモデルトレーニングに使用されます。
得られた結果は、同じデータセットで訓練された微調整BERTおよびBioBERTモデルと比較されます。
論文 参考訳(メタデータ) (2021-02-25T19:36:35Z) - Local Additivity Based Data Augmentation for Semi-supervised NER [59.90773003737093]
名前付きエンティティ認識(NER)は、深層言語理解の第1段階の1つである。
現在のNERモデルは、人間の注釈付きデータに大きく依存している。
半教師付きNERのための局所付加性に基づくデータ拡張法(LADA)を提案する。
論文 参考訳(メタデータ) (2020-10-04T20:46:26Z) - LUKE: Deep Contextualized Entity Representations with Entity-aware
Self-attention [37.111204321059084]
両方向変換器に基づく単語と実体の事前学習した文脈表現を提案する。
我々のモデルは、BERTのマスキング言語モデルに基づく新しい事前訓練タスクを用いて訓練される。
また,変換器の自己認識機構の拡張である自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-02T15:38:03Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z) - ATSO: Asynchronous Teacher-Student Optimization for Semi-Supervised
Medical Image Segmentation [99.90263375737362]
教師-学生最適化の非同期版であるATSOを提案する。
ATSOはラベルのないデータを2つのサブセットに分割し、モデルの微調整に1つのサブセットを交互に使用し、他のサブセットのラベルを更新する。
医用画像のセグメンテーションデータセットを2つ評価し,様々な半教師付き環境において優れた性能を示す。
論文 参考訳(メタデータ) (2020-06-24T04:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。