論文の概要: An Analysis Of Protected Health Information Leakage In Deep-Learning
Based De-Identification Algorithms
- arxiv url: http://arxiv.org/abs/2101.12099v2
- Date: Fri, 21 May 2021 13:23:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 11:29:38.305038
- Title: An Analysis Of Protected Health Information Leakage In Deep-Learning
Based De-Identification Algorithms
- Title(参考訳): 深層学習に基づく非同定アルゴリズムにおける保護された健康情報漏洩の解析
- Authors: Salman Seyedi, Li Xiong, Shamim Nemati, Gari D. Clifford
- Abstract要約: LSTM(Long Short-Term Memory)に基づく最先端自由テキスト識別アルゴリズムの解析
我々は、LSTMの出力を用いてトレーニングデータのメンバシップを推定できるかどうかを評価するために、モデルをトレーニングし、分析した。
その結果、モデル出力に基づいて、トレーニングデータのメンバーが非メンバーと区別できるかどうかを特定できないことが示唆された。
- 参考スコア(独自算出の注目度): 10.609854621863757
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The increasing complexity of algorithms for analyzing medical data, including
de-identification tasks, raises the possibility that complex algorithms are
learning not just the general representation of the problem, but specifics of
given individuals within the data. Modern legal frameworks specifically
prohibit the intentional or accidental distribution of patient data, but have
not addressed this potential avenue for leakage of such protected health
information. Modern deep learning algorithms have the highest potential of such
leakage due to complexity of the models. Recent research in the field has
highlighted such issues in non-medical data, but all analysis is likely to be
data and algorithm specific. We, therefore, chose to analyze a state-of-the-art
free-text de-identification algorithm based on LSTM (Long Short-Term Memory)
and its potential in encoding any individual in the training set. Using the
i2b2 Challenge Data, we trained, then analyzed the model to assess whether the
output of the LSTM, before the compression layer of the classifier, could be
used to estimate the membership of the training data. Furthermore, we used
different attacks including membership inference attack method to attack the
model. Results indicate that the attacks could not identify whether members of
the training data were distinguishable from non-members based on the model
output. This indicates that the model does not provide any strong evidence into
the identification of the individuals in the training data set and there is not
yet empirical evidence it is unsafe to distribute the model for general use.
- Abstract(参考訳): 脱識別タスクを含む医療データを分析するアルゴリズムの複雑さの増加は、複雑なアルゴリズムが問題の一般的な表現だけでなく、データ内の特定の個人の特異性も学習している可能性を高める。
現代の法的枠組みは、特に患者データの意図的または偶発的分布を禁止しているが、このような保護された医療情報の漏洩に対するこの潜在的な道筋には対処していない。
現代のディープラーニングアルゴリズムは、モデルの複雑さのため、そのような漏洩の可能性が最も高い。
この分野の最近の研究は、非医学的データにおけるそのような問題を強調しているが、すべての分析は、データとアルゴリズム固有のものである可能性が高い。
そこで我々は、LSTM(Long Short-Term Memory)に基づく最先端のフリーテキスト識別アルゴリズムと、トレーニングセット内の任意の個人を符号化する可能性について分析した。
i2b2チャレンジデータを用いて、トレーニングを行い、LSTMの出力が分類器の圧縮層の前に、トレーニングデータのメンバシップを推定できるかどうかを評価する。
さらに,モデルの攻撃には,メンバシップ推論攻撃法などの異なる攻撃を用いた。
その結果、トレーニングデータのメンバーがモデル出力に基づいて非メンバーと区別できるかどうか、攻撃は特定できなかった。
このことは、モデルがトレーニングデータセット内の個人を識別する強力な証拠を提供しておらず、一般的な使用のためにモデルを配布することが安全でないという実証的な証拠がまだ存在しないことを示している。
関連論文リスト
- Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Modular Learning of Deep Causal Generative Models for High-dimensional Causal Inference [5.522612010562183]
Modular-DCMは、因果構造を考えると、敵のトレーニングを用いてネットワーク重みを学習する最初のアルゴリズムである。
本稿では,CelebA-HQ における因果不変予測問題を用いて,このアルゴリズムの COVIDx データセットとそのユーティリティへの収束性を示す。
論文 参考訳(メタデータ) (2024-01-02T20:31:15Z) - Mitigating Data Injection Attacks on Federated Learning [20.24380409762923]
フェデレートラーニング(Federated Learning)は、複数のエンティティがデータを使ってモデルを協調的にトレーニングすることを可能にするテクニックである。
その利点にもかかわらず、フェデレートされた学習は偽のデータ注入攻撃の影響を受けやすい。
本稿では,フェデレート学習システムにおけるデータインジェクション攻撃の検出と緩和を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:26:31Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced
Dataset and Benchmark [62.997667081978825]
本稿では,交通事故における傷害の重大性を予測するために,機械学習アルゴリズムの性能を評価する新しいデータセットを提案する。
データセットは、英国運輸省から公開されているデータセットを集約することで作成される。
論文 参考訳(メタデータ) (2022-05-20T21:15:26Z) - Model-based Clustering with Missing Not At Random Data [0.8777702580252754]
我々は,MNARデータを含む,非常に一般的なタイプの欠落データを扱うために設計されたモデルベースのクラスタリングアルゴリズムを提案する。
いくつかのMNARモデルについて議論し、不足の原因は、欠落変数自体の値とクラスメンバーシップの両方に依存する。
MNARzと呼ばれる特定のMNARモデルに注目する。
論文 参考訳(メタデータ) (2021-12-20T09:52:12Z) - Enhanced Membership Inference Attacks against Machine Learning Models [9.26208227402571]
メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークする個人情報の定量化に使用される。
我々は,AUCスコアを高い精度で達成できる新たな攻撃アルゴリズムを導き,その性能に影響を及ぼすさまざまな要因を強調した。
我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用することができる。
論文 参考訳(メタデータ) (2021-11-18T13:31:22Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。