論文の概要: Beyond De-Identification: A Structured Approach for Defining and Detecting Indirect Identifiers in Medical Texts
- arxiv url: http://arxiv.org/abs/2502.13342v1
- Date: Tue, 18 Feb 2025 23:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:25.837457
- Title: Beyond De-Identification: A Structured Approach for Defining and Detecting Indirect Identifiers in Medical Texts
- Title(参考訳): 医用テキストにおける間接的識別器の定義と検出のための構造的アプローチ
- Authors: Ibrahim Baroud, Lisa Raithel, Sebastian Möller, Roland Roller,
- Abstract要約: この研究は、異なる潜在的な敵を考慮に入れた間接識別子の9つのカテゴリのスキーマを導入する。
このスキーマを用いて100個のMIMIC-III放電サマリーをアノテートし、間接識別子を識別するためのベースラインモデルを提案する。
- 参考スコア(独自算出の注目度): 9.186135324627102
- License:
- Abstract: Sharing sensitive texts for scientific purposes requires appropriate techniques to protect the privacy of patients and healthcare personnel. Anonymizing textual data is particularly challenging due to the presence of diverse unstructured direct and indirect identifiers. To mitigate the risk of re-identification, this work introduces a schema of nine categories of indirect identifiers designed to account for different potential adversaries, including acquaintances, family members and medical staff. Using this schema, we annotate 100 MIMIC-III discharge summaries and propose baseline models for identifying indirect identifiers. We will release the annotation guidelines, annotation spans (6,199 annotations in total) and the corresponding MIMIC-III document IDs to support further research in this area.
- Abstract(参考訳): 科学的目的のために機密文書を共有するには、患者や医療従事者のプライバシーを保護する適切な技術が必要である。
テキストデータの匿名化は、様々な非構造化の直接識別子と間接識別子が存在するため、特に困難である。
再識別のリスクを軽減するため, 知人, 家族, 医療スタッフなど, 様々な潜在的な敵を考慮に入れた, 間接的識別子の9つのカテゴリのスキーマを導入する。
このスキーマを用いて100個のMIMIC-III放電サマリーをアノテートし、間接識別子を識別するためのベースラインモデルを提案する。
この領域のさらなる研究を支援するため、アノテーションガイドライン、アノテーションスパン(6,199のアノテーション)および対応するMIMIC-III文書IDをリリースする。
関連論文リスト
- Neural Text Sanitization with Privacy Risk Indicators: An Empirical
Analysis [2.9311414545087366]
テキスト・サニタイズのための2段階のアプローチを検討し、その経験的性能を詳細に分析する。
テキストサニタイズプロセスは、プライバシー指向のエンティティ認識器から始まり、識別可能な個人情報を表すテキストを識別する。
本稿では,言語モデルの確率,テキストスパン分類,シーケンスラベリング,摂動,Web検索に基づく再識別リスクの指標を5つ提示する。
論文 参考訳(メタデータ) (2023-10-22T14:17:27Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4 [80.36535668574804]
我々は新しいGPT4対応脱識別フレームワーク(DeID-GPT)を開発した。
開発したDeID-GPTは,非構造化医用テキストからの個人情報のマスキングにおいて,高い精度と信頼性を示した。
本研究は,ChatGPTおよびGPT-4を医療用テキストデータ処理および非識別に利用した最初期の1つである。
論文 参考訳(メタデータ) (2023-03-20T11:34:37Z) - An Easy-to-use and Robust Approach for the Differentially Private
De-Identification of Clinical Textual Documents [0.0]
本稿では, より頑健な識別の強化により, 効率よく, 微分的にプライベートな識別方法を実現する方法を示す。
この結果は、フランス語で臨床文書を識別するアプローチであるが、他の言語にも一般化可能である。
論文 参考訳(メタデータ) (2022-11-02T14:25:09Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - Classifying Cyber-Risky Clinical Notes by Employing Natural Language
Processing [9.77063694539068]
近年、アメリカ合衆国内の一部の州では、患者が臨床ノートに自由にアクセスできるように求めている。
本研究は,臨床ノートにおけるセキュリティ・プライバシリスクの特定方法について検討する。
論文 参考訳(メタデータ) (2022-03-24T00:36:59Z) - MIMICause : Defining, identifying and predicting types of causal
relationships between biomedical concepts from clinical notes [0.0]
本研究は, ガイドラインの策定, 注釈付きコーパスの開発, 臨床ノートにおけるバイオメディカル概念間の因果関係のタイプと方向を特定するためのベースラインスコアの提供を目的とする。
2018 n2c2共有タスクデータセットからサンプリングされた、合計2714の特定されていないサンプルを注釈付けし、4つの異なる言語モデルベースのアーキテクチャをトレーニングします。
臨床用テキストにおける注釈書間の高い合意は,本ガイドラインの質を示す一方で,提案されたベースラインF1は,臨床用テキストにおける物語の理解に向けた今後の研究の方向性を示す。
論文 参考訳(メタデータ) (2021-10-14T00:15:36Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。