論文の概要: PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels
- arxiv url: http://arxiv.org/abs/2304.00047v1
- Date: Fri, 31 Mar 2023 18:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 19:56:53.468582
- Title: PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels
- Title(参考訳): PEOPL:公開ラベルでプライベートエンコードされたオープンデータセットを特徴付ける
- Authors: Homa Esfahanizadeh, Adam Yala, Rafael G. L. D'Oliveira, Andrea J. D.
Jaba, Victor Quach, Ken R. Duffy, Tommi S. Jaakkola, Vinod Vaikuntanathan,
Manya Ghobadi, Regina Barzilay, Muriel M\'edard
- Abstract要約: プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
- 参考スコア(独自算出の注目度): 59.66777287810985
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Allowing organizations to share their data for training of machine learning
(ML) models without unintended information leakage is an open problem in
practice. A promising technique for this still-open problem is to train models
on the encoded data. Our approach, called Privately Encoded Open Datasets with
Public Labels (PEOPL), uses a certain class of randomly constructed transforms
to encode sensitive data. Organizations publish their randomly encoded data and
associated raw labels for ML training, where training is done without knowledge
of the encoding realization. We investigate several important aspects of this
problem: We introduce information-theoretic scores for privacy and utility,
which quantify the average performance of an unfaithful user (e.g., adversary)
and a faithful user (e.g., model developer) that have access to the published
encoded data. We then theoretically characterize primitives in building
families of encoding schemes that motivate the use of random deep neural
networks. Empirically, we compare the performance of our randomized encoding
scheme and a linear scheme to a suite of computational attacks, and we also
show that our scheme achieves competitive prediction accuracy to raw-sample
baselines. Moreover, we demonstrate that multiple institutions, using
independent random encoders, can collaborate to train improved ML models.
- Abstract(参考訳): 意図しない情報漏洩なしに機械学習(ML)モデルのトレーニングのためにデータを共有できるようにすることは、実際にはオープンな問題である。
このまだ開いている問題の有望なテクニックは、エンコードされたデータでモデルをトレーニングすることだ。
我々のアプローチはPEOPL(Privately Encoded Open Datasets with Public Labels)と呼ばれ、ある種類のランダムに構築された変換を用いて機密データを符号化する。
組織は、ランダムにエンコードされたデータと関連する生ラベルをMLトレーニング用に公開し、そこでは、エンコーディングの実現に関する知識なしにトレーニングが行われる。
そこで本研究では,プライバシとユーティリティに関する情報理論的なスコアを導入し,公開された符号化データにアクセス可能な不適切なユーザ(例えば,敵意)と忠実なユーザ(例えばモデル開発者)の平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
実験では,ランダム化符号化方式と線形スキームの性能を一連の計算攻撃と比較し,本手法が生のサンプルベースラインと競合する予測精度を達成することを示す。
さらに、独立ランダムエンコーダを用いた複数の機関が協調して改善されたMLモデルを訓練できることを実証した。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Robust Representation Learning for Privacy-Preserving Machine Learning:
A Multi-Objective Autoencoder Approach [0.9831489366502302]
プライバシー保護機械学習(ppML)のための堅牢な表現学習フレームワークを提案する。
提案手法は,多目的方式でオートエンコーダを訓練することを中心に,符号化部からの潜伏と学習の特徴を符号化形式として結合する。
提案したフレームワークでは、元のフォームを公開せずに、データを共有し、サードパーティツールを使用することができます。
論文 参考訳(メタデータ) (2023-09-08T16:41:25Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Data Encoding For Healthcare Data Democratisation and Information
Leakage Prevention [23.673071967945358]
本稿では,非可逆データ符号化がデータの民主化を実現する効果的な解決策となることを論じる。
ランダムなプロジェクションとランダムな量子符号化を利用して、このフレームワークを高密度および長手または時系列データのために実現している。
実験的な評価では、符号化された時系列データに基づいて訓練されたモデルが、情報ボトルネックの原則を効果的に支持していることが強調されている。
論文 参考訳(メタデータ) (2023-05-05T17:50:50Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Multi-class Classifier based Failure Prediction with Artificial and
Anonymous Training for Data Privacy [0.0]
故障予測のためのニューラルネットワークに基づくマルチクラス分類器を開発した。
提案したメカニズムは、トレーニングプロセスで使用されるデータセットを、プライベートに保持されている実際のデータから完全に分離する。
その結果,異なるパラメータ構成下での故障予測の精度が向上した。
論文 参考訳(メタデータ) (2022-09-06T07:53:33Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Uncertainty-Autoencoder-Based Privacy and Utility Preserving Data Type
Conscious Transformation [3.7315964084413173]
プライバシ・ユーティリティのトレードオフ問題に対処する逆学習フレームワークを2つの条件で提案する。
データタイプの無知な条件下では、プライバシメカニズムは、正確に1つのクラスを表す、カテゴリ機能の1ホットエンコーディングを提供する。
データ型認識条件下では、分類変数は各クラスごとに1つのスコアの集合で表される。
論文 参考訳(メタデータ) (2022-05-04T08:40:15Z) - Privacy-Preserving Federated Learning via System Immersion and Random
Matrix Encryption [4.258856853258348]
フェデレーション学習(FL)は、クライアントが中央集権的な(潜在的に敵対的な)サーバとデータを共有するのではなく、デバイス上でAIモデルをトレーニングする、コラボレーティブな分散学習のためのプライバシソリューションとして登場した。
本稿では,制御理論からの行列暗号とシステム浸漬ツールの相乗効果に基づいて,プライバシ保護フェデレーションラーニング(PPFL)フレームワークを提案する。
提案アルゴリズムは,クライアントのデータに関する情報を公開せずに,標準FLと同等の精度と収束率を無視できるコストで提供することを示す。
論文 参考訳(メタデータ) (2022-04-05T21:28:59Z) - NeuraCrypt: Hiding Private Health Data via Random Neural Networks for
Public Training [64.54200987493573]
我々は,ランダムな深層ニューラルネットワークに基づくプライベート符号化方式であるNeuraCryptを提案する。
NeuraCryptは、データ所有者のみが知っているランダムに構築されたニューラルネットワークを使用して、生の患者データをエンコードする。
我々は,NeuraCryptが,様々なX線タスクの非プライベートベースラインに対して,競合精度を達成することを示す。
論文 参考訳(メタデータ) (2021-06-04T13:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。