論文の概要: Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts
- arxiv url: http://arxiv.org/abs/2204.04775v1
- Date: Sun, 10 Apr 2022 21:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 08:35:02.456103
- Title: Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts
- Title(参考訳): コード混合臨床文書の粗粒化脱同定のための小節間クロスリンガルトランスファー
- Authors: Saadullah Amin, Noon Pokaratsiri Goldstein, Morgan Kelly Wixted,
Alejandro Garc\'ia-Rudolph, Catalina Mart\'inez-Costa, G\"unter Neumann
- Abstract要約: 事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
- 参考スコア(独自算出の注目度): 56.72488923420374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the advances in digital healthcare systems offering curated
structured knowledge, much of the critical information still lies in large
volumes of unlabeled and unstructured clinical texts. These texts, which often
contain protected health information (PHI), are exposed to information
extraction tools for downstream applications, risking patient identification.
Existing works in de-identification rely on using large-scale annotated corpora
in English, which often are not suitable in real-world multilingual settings.
Pre-trained language models (LM) have shown great potential for cross-lingual
transfer in low-resource settings. In this work, we empirically show the
few-shot cross-lingual transfer property of LMs for named entity recognition
(NER) and apply it to solve a low-resource and real-world challenge of
code-mixed (Spanish-Catalan) clinical notes de-identification in the stroke
domain. We annotate a gold evaluation dataset to assess few-shot setting
performance where we only use a few hundred labeled examples for training. Our
model improves the zero-shot F1-score from 73.7% to 91.2% on the gold
evaluation set when adapting Multilingual BERT (mBERT) (Devlin et al., 2019)
from the MEDDOCAN (Marimon et al., 2019) corpus with our few-shot cross-lingual
target corpus. When generalized to an out-of-sample test set, the best model
achieves a human-evaluation F1-score of 97.2%.
- Abstract(参考訳): キュレートされた構造化された知識を提供するデジタル医療システムの進歩にもかかわらず、重要な情報の多くは、まだラベルなしおよび未構造化の臨床テキストの大量に存在する。
これらのテキストは、しばしば保護された健康情報(phi)を含み、下流アプリケーションのための情報抽出ツールに晒され、患者の識別を危険にさらす。
非同一化の既存の作品では、英語で大規模な注釈付きコーパスを使用するが、実世界の多言語環境では適さないことが多い。
事前学習型言語モデル(LM)は低リソース環境での言語間移動に大きな可能性を示している。
本研究では,NERにおけるLMの多言語間転写特性を実証的に示すとともに,脳卒中領域におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために応用する。
我々はゴールド評価データセットをアノテートして、数百のラベル付きサンプルをトレーニングに使用した少数のショット設定性能を評価する。
本モデルでは,Multilingual BERT (Devlin et al., 2019) を MEDDOCAN (Marimon et al., 2019) コーパスから適用した場合の金評価値の0ショットF1スコアを73.7%から91.2%に改善する。
サンプル外テスト集合に一般化すると、最良モデルは人間の評価f1-スコア97.2%を達成する。
関連論文リスト
- DAEDRA: A language model for predicting outcomes in passive
pharmacovigilance reporting [0.0]
DAEDRAは、有害事象報告における規制関連結果を検出するために設計された大きな言語モデルである。
本稿では,DAEDRAの概念,設計,訓練,評価について述べる。
論文 参考訳(メタデータ) (2024-02-10T16:48:45Z) - FRASIMED: a Clinical French Annotated Resource Produced through
Crosslingual BERT-Based Annotation Projection [0.6116681488656472]
本稿では,言語横断的アノテーション投影による注釈付きデータセットの翻訳版を生成する手法を紹介する。
本報告では,フランスにおける2'051の合成臨床症例からなる注釈コーパスであるFRASIMED(Francial Annotated Resource with Semantic Information for Medical Detection)の作成について述べる。
論文 参考訳(メタデータ) (2023-09-19T17:17:28Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Cross-lingual Approaches for the Detection of Adverse Drug Reactions in
German from a Patient's Perspective [3.8233498951276403]
患者生成内容におけるドイツ逆薬物反応検出のための最初のコーパスを提示する。
データはドイツの患者フォーラムから4,169件の注釈付き文書から成っている。
論文 参考訳(メタデータ) (2022-08-03T12:52:01Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Estimating Redundancy in Clinical Text [6.245180523143739]
臨床医は、既存のメモを複製し、それに従って更新することで、新しい文書をポップアップさせる。
情報冗長性の定量化は、臨床物語を扱う革新を評価する上で重要な役割を果たす。
冗長性を測定するための2つの戦略として,情報理論アプローチと語彙論的・意味論的モデルを提示し,評価する。
論文 参考訳(メタデータ) (2021-05-25T11:01:45Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - A Bayesian Multilingual Document Model for Zero-shot Topic Identification and Discovery [1.9215779751499527]
モデルは多言語シナリオへの BaySMM [Kesiraju et al 2020] の拡張である。
学習した不確実性を線形分類器で伝達し、ゼロショットの言語間話題識別に役立てる。
我々は、現在のデータセットを深く掘り下げることで、ゼロショット設定での言語間トピックの識別を再考する。
論文 参考訳(メタデータ) (2020-07-02T19:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。