論文の概要: Rethinking Privacy in Machine Learning Pipelines from an Information
Flow Control Perspective
- arxiv url: http://arxiv.org/abs/2311.15792v1
- Date: Mon, 27 Nov 2023 13:14:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 15:19:20.950454
- Title: Rethinking Privacy in Machine Learning Pipelines from an Information
Flow Control Perspective
- Title(参考訳): 情報フロー制御の観点からの機械学習パイプラインのプライバシ再考
- Authors: Lukas Wutschitz, Boris K\"opf, Andrew Paverd, Saravan Rajmohan, Ahmed
Salem, Shruti Tople, Santiago Zanella-B\'eguelin, Menglin Xia, Victor R\"uhle
- Abstract要約: 現代の機械学習システムは、成長を続けるコーパスで訓練されたモデルを使用する。
オーナシップ、アクセス制御、ライセンス情報などのメタデータは、トレーニング中に無視される。
情報フロー制御の観点から機械学習システムを記述する。
- 参考スコア(独自算出の注目度): 16.487545258246932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern machine learning systems use models trained on ever-growing corpora.
Typically, metadata such as ownership, access control, or licensing information
is ignored during training. Instead, to mitigate privacy risks, we rely on
generic techniques such as dataset sanitization and differentially private
model training, with inherent privacy/utility trade-offs that hurt model
performance. Moreover, these techniques have limitations in scenarios where
sensitive information is shared across multiple participants and fine-grained
access control is required. By ignoring metadata, we therefore miss an
opportunity to better address security, privacy, and confidentiality
challenges. In this paper, we take an information flow control perspective to
describe machine learning systems, which allows us to leverage metadata such as
access control policies and define clear-cut privacy and confidentiality
guarantees with interpretable information flows. Under this perspective, we
contrast two different approaches to achieve user-level non-interference: 1)
fine-tuning per-user models, and 2) retrieval augmented models that access
user-specific datasets at inference time. We compare these two approaches to a
trivially non-interfering zero-shot baseline using a public model and to a
baseline that fine-tunes this model on the whole corpus. We evaluate trained
models on two datasets of scientific articles and demonstrate that retrieval
augmented architectures deliver the best utility, scalability, and flexibility
while satisfying strict non-interference guarantees.
- Abstract(参考訳): 現代の機械学習システムは、成長を続けるコーパスで訓練されたモデルを使用する。
通常、トレーニング中にオーナシップ、アクセス制御、ライセンス情報などのメタデータは無視される。
代わりに、プライバシのリスクを軽減するために、私たちは、データセットのサニタイズや差分的にプライベートなモデルトレーニングといった一般的なテクニックに依存しています。
さらに、これらの技術は、複数の参加者間で機密情報を共有し、きめ細かいアクセス制御を必要とするシナリオに制限がある。
メタデータを無視することで、セキュリティやプライバシ、機密性といった問題に対処する機会を逃します。
本稿では,機械学習システムを記述するための情報フロー制御の観点から,アクセス制御ポリシーなどのメタデータを活用し,情報フローを解釈可能な形で明確化されたプライバシーと機密性保証を定義する。
この観点から、ユーザレベルの非干渉を実現するための2つの異なるアプローチを対比する。
1)ユーザ毎の微調整,及び
2) 推論時にユーザ固有のデータセットにアクセスする拡張モデル。
これら2つのアプローチを,公開モデルを用いた自明な非干渉ゼロショットベースラインと,このモデルをコーパス全体に微調整するベースラインと比較した。
我々は,科学論文の2つのデータセットで訓練されたモデルを評価し,検索拡張アーキテクチャが,厳格な非干渉保証を満たしながら,最良の実用性,拡張性,柔軟性をもたらすことを実証する。
関連論文リスト
- Segue: Side-information Guided Generative Unlearnable Examples for
Facial Privacy Protection in Real World [64.4289385463226]
生成不可能な例としては、Segue: Side-information guided Generative unlearnable Exampleを提案する。
転送性を向上させるために,真のラベルや擬似ラベルなどの側面情報を導入する。
JPEG圧縮、敵対的トレーニング、およびいくつかの標準的なデータ拡張に抵抗することができる。
論文 参考訳(メタデータ) (2023-10-24T06:22:37Z) - Privacy Side Channels in Machine Learning Systems [82.85919161427604]
プライバシサイドチャネルは、システムレベルのコンポーネントを利用してプライベート情報を抽出する攻撃である。
機械学習ライフサイクル全体にわたるサイドチャネルの4つのカテゴリを提案する。
我々の結果は、全体的なエンドツーエンドのプライバシー分析の必要性を示しています。
論文 参考訳(メタデータ) (2023-09-11T16:49:05Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Tight Auditing of Differentially Private Machine Learning [77.38590306275877]
プライベート機械学習では、既存の監査メカニズムは厳格である。
彼らは不確実な最悪の仮定の下でのみ厳密な見積もりを行う。
我々は、自然(逆向きではない)データセットの厳密なプライバシー推定を得られる改善された監査スキームを設計する。
論文 参考訳(メタデータ) (2023-02-15T21:40:33Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - A Survey on Differential Privacy with Machine Learning and Future
Outlook [0.0]
差分プライバシーは、あらゆる攻撃や脆弱性から機械学習モデルを保護するために使用される。
本稿では,2つのカテゴリに分類される差分プライベート機械学習アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-11-19T14:20:53Z) - Applied Federated Learning: Architectural Design for Robust and
Efficient Learning in Privacy Aware Settings [0.8454446648908585]
古典的な機械学習パラダイムは、中央にユーザーデータの集約を必要とする。
データの集中化は、内部および外部のセキュリティインシデントのリスクを高めることを含むリスクを引き起こす。
差分プライバシーによるフェデレーション学習は、サーバ側の集中化落とし穴を避けるように設計されている。
論文 参考訳(メタデータ) (2022-06-02T00:30:04Z) - Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks,
and Defenses [150.64470864162556]
この作業は体系的に分類され、幅広いデータセット脆弱性とエクスプロイトを議論する。
様々な毒とバックドアの脅威モデルとそれらの関係を記述することに加えて,それらの統一分類法を展開する。
論文 参考訳(メタデータ) (2020-12-18T22:38:47Z) - Privacy Enhancing Machine Learning via Removal of Unwanted Dependencies [21.97951347784442]
本稿では,特定のアプリケーションに送信される前に,データ中のセンシティブな情報を除去する,教師付き・敵対型学習手法の新たな変種について検討する。
提案手法は,エンド・ツー・エンド方式で特徴マッピングと予測モデルを同時に保存するプライバシー保護を最適化する。
モバイルセンシングと顔データを用いた実験結果から,予測モデルの実用性能の維持に成功し,予測性能の低下を招いた。
論文 参考訳(メタデータ) (2020-07-30T19:55:10Z) - SPEED: Secure, PrivatE, and Efficient Deep learning [2.283665431721732]
私たちは、強力なプライバシー制約に対処できるディープラーニングフレームワークを導入します。
協調学習、差分プライバシー、同型暗号化に基づいて、提案手法は最先端技術に進化する。
論文 参考訳(メタデータ) (2020-06-16T19:31:52Z) - Federating Recommendations Using Differentially Private Prototypes [16.29544153550663]
生データを収集せずにグローバルおよびローカルなプライベートモデルを学習するための新しいフェデレーションアプローチを提案する。
通信を2ラウンドだけ必要とすることで、通信コストを削減し、過剰なプライバシー損失を回避することができます。
本稿では,グローバルモデルの局所的適応により,集中行列分解に基づくレコメンデータシステムモデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-03-01T22:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。