論文の概要: De-identification of Unstructured Clinical Texts from Sequence to
Sequence Perspective
- arxiv url: http://arxiv.org/abs/2108.07971v1
- Date: Wed, 18 Aug 2021 04:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 14:48:46.980294
- Title: De-identification of Unstructured Clinical Texts from Sequence to
Sequence Perspective
- Title(参考訳): シーケンシャルからシークエンスへ向けた非構造化臨床テキストの非同定
- Authors: Md Monowar Anjum, Noman Mohammed, Xiaoqian Jiang
- Abstract要約: 本稿では,トークン分類問題ではなく,シーケンスからシーケンスへの学習問題として同定問題を定式化する。
提案手法の早期実験は,i2b2データセット上で98.91%のリコール率を達成した。
- 参考スコア(独自算出の注目度): 8.615499133294097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we propose a novel problem formulation for de-identification of
unstructured clinical text. We formulate the de-identification problem as a
sequence to sequence learning problem instead of a token classification
problem. Our approach is inspired by the recent state-of -the-art performance
of sequence to sequence learning models for named entity recognition. Early
experimentation of our proposed approach achieved 98.91% recall rate on i2b2
dataset. This performance is comparable to current state-of-the-art models for
unstructured clinical text de-identification.
- Abstract(参考訳): 本研究では,非構造化臨床テキストの非同定のための新しい問題定式化を提案する。
トークン分類問題に代えて,シーケンス学習問題に対するシーケンスとして非同定問題を定式化する。
我々のアプローチは、名前付きエンティティ認識のためのシークエンスからシークエンス学習モデルの最近の最先端パフォーマンスにインスパイアされている。
提案手法の早期実験は,i2b2データセット上で98.91%のリコール率を達成した。
この性能は、非構造化臨床テキスト識別のための現在の最先端モデルに匹敵する。
関連論文リスト
- Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。
埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。
本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:45:15Z) - DeIDClinic: A Multi-Layered Framework for De-identification of Clinical Free-text Data [6.473402241020136]
本研究は,臨床テキストを微調整した深層学習モデルであるCeriorBERTを統合することにより,MASKフレームワークを強化する。
このシステムは、臨床文書内の機密性のある実体を効果的に識別し、再認識するか、置き換える。
リスク評価機能も開発され、文書内のコンテキストのユニークさを分析してリスクレベルに分類する。
論文 参考訳(メタデータ) (2024-10-02T15:16:02Z) - On the Importance of Step-wise Embeddings for Heterogeneous Clinical
Time-Series [1.3285222309805063]
近年のシークエンス・モデリングの深層学習の進歩は、電子健康記録から時系列を扱うタスクに完全に移行していない。
特に、ICU(Intensive Care Unit)に関わる問題では、木に基づく手法で表形式でシーケンス分類に取り組むことが現状である。
論文 参考訳(メタデータ) (2023-11-15T12:18:15Z) - Pyclipse, a library for deidentification of free-text clinical notes [0.40329768057075643]
同定アルゴリズムの比較を効率化するpyclipseフレームワークを提案する。
Pyclipseは、ローカル臨床データ上でオープンソースの識別アルゴリズムを実行するための単一のインターフェースとして機能する。
同じベンチマークデータセットで評価しても、アルゴリズムのパフォーマンスは、元の論文で報告された結果に一貫して劣っていることが分かりました。
論文 参考訳(メタデータ) (2023-11-05T19:56:58Z) - Towards Semi-Structured Automatic ICD Coding via Tree-based Contrastive
Learning [18.380293890624102]
本稿では,臨床ノートの半構造化特性について検討し,それらをセクションに分割する自動アルゴリズムを提案する。
データ制限のある既存のICD符号化モデルにおける可変性問題に対処するため、セクションに対して対照的な事前学習アプローチを導入する。
論文 参考訳(メタデータ) (2023-10-14T22:07:13Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z) - LifeLonger: A Benchmark for Continual Disease Classification [59.13735398630546]
MedMNISTコレクションの連続的な疾患分類のためのベンチマークであるLifeLongerを紹介する。
タスクとクラスでの病気の漸進的な学習は、モデルをスクラッチから再トレーニングすることなく、新しいサンプルを分類する問題に対処する。
クロスドメインインクリメンタル学習は、これまで得られた知識を維持しながら、異なる機関から派生したデータセットを扱う問題に対処する。
論文 参考訳(メタデータ) (2022-04-12T12:25:05Z) - Detecting of a Patient's Condition From Clinical Narratives Using
Natural Language Representation [0.3149883354098941]
本稿では,臨床自然言語表現学習と教師付き分類フレームワークを提案する。
この新しいフレームワークは、文脈的臨床物語入力から分布構文と潜在意味論(表現学習)を共同で発見する。
提案手法では, 精度, 再現性, 精度をそれぞれ89 %, 88 %, 89 %とした総合分類性能が得られる。
論文 参考訳(メタデータ) (2021-04-08T17:16:04Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。