論文の概要: Data Encoding For Healthcare Data Democratisation and Information
Leakage Prevention
- arxiv url: http://arxiv.org/abs/2305.03710v1
- Date: Fri, 5 May 2023 17:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 13:06:42.253175
- Title: Data Encoding For Healthcare Data Democratisation and Information
Leakage Prevention
- Title(参考訳): 医療データ民主化のためのデータエンコーディングと情報漏洩防止
- Authors: Anshul Thakur, Tingting Zhu, Vinayak Abrol, Jacob Armstrong, Yujiang
Wang, David A. Clifton
- Abstract要約: 本稿では,非可逆データ符号化がデータの民主化を実現する効果的な解決策となることを論じる。
ランダムなプロジェクションとランダムな量子符号化を利用して、このフレームワークを高密度および長手または時系列データのために実現している。
実験的な評価では、符号化された時系列データに基づいて訓練されたモデルが、情報ボトルネックの原則を効果的に支持していることが強調されている。
- 参考スコア(独自算出の注目度): 23.673071967945358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of data democratization and information leakage from trained models
hinder the development and acceptance of robust deep learning-based healthcare
solutions. This paper argues that irreversible data encoding can provide an
effective solution to achieve data democratization without violating the
privacy constraints imposed on healthcare data and clinical models. An ideal
encoding framework transforms the data into a new space where it is
imperceptible to a manual or computational inspection. However, encoded data
should preserve the semantics of the original data such that deep learning
models can be trained effectively. This paper hypothesizes the characteristics
of the desired encoding framework and then exploits random projections and
random quantum encoding to realize this framework for dense and longitudinal or
time-series data. Experimental evaluation highlights that models trained on
encoded time-series data effectively uphold the information bottleneck
principle and hence, exhibit lesser information leakage from trained models.
- Abstract(参考訳): データ民主化の欠如と訓練されたモデルからの情報漏洩は、堅牢なディープラーニングベースのヘルスケアソリューションの開発と受け入れを妨げる。
本稿では、医療データや臨床モデルに課されるプライバシー制約に違反することなく、データの民主化を実現するための効果的な解決策を提供することができると論じる。
理想的な符号化フレームワークは、データを手動や計算検査ができない新しい空間に変換する。
しかし、エンコードされたデータは、ディープラーニングモデルを効果的にトレーニングできるように、元のデータのセマンティクスを保存すべきである。
本稿では、所望の符号化フレームワークの特性を仮定し、ランダム射影とランダム量子エンコーディングを利用して、高密度・縦長・時系列データを実現する。
実験評価では、エンコードされた時系列データでトレーニングされたモデルが情報のボトルネック原理を効果的に保ち、従って訓練されたモデルからの情報漏洩が少ないことを強調する。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - TSynD: Targeted Synthetic Data Generation for Enhanced Medical Image Classification [0.011037620731410175]
この研究は、生成モデルを誘導し、高い不確実性でデータを合成することを目的としている。
最適化プロセスによりオートエンコーダの特徴空間を変更する。
我々は,複数の分類タスクに対するテスト時間データ拡張と敵攻撃に対する堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-06-25T11:38:46Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Distributed learning optimisation of Cox models can leak patient data:
Risks and solutions [0.0]
本稿では,Coxサバイバルモデルの最適化が患者のデータ漏洩につながることを実証する。
我々は、これらの問題を安全に回避するCoxモデルを最適化し、検証する方法を提案する。
論文 参考訳(メタデータ) (2022-04-12T14:56:20Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Generative Low-bitwidth Data Free Quantization [44.613912463011545]
本稿ではGDFQ(Generative Low-bitdth Data Free Quantization)を提案する。
生成したデータの助けを借りて、事前学習されたモデルから知識を学習することでモデルを定量化することができる。
提案手法は,既存のデータ自由量子化法よりも高精度な4ビット量子化を実現する。
論文 参考訳(メタデータ) (2020-03-07T16:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。