論文の概要: Rethinking Privacy in Machine Learning Pipelines from an Information
Flow Control Perspective
- arxiv url: http://arxiv.org/abs/2311.15792v1
- Date: Mon, 27 Nov 2023 13:14:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 15:19:20.950454
- Title: Rethinking Privacy in Machine Learning Pipelines from an Information
Flow Control Perspective
- Title(参考訳): 情報フロー制御の観点からの機械学習パイプラインのプライバシ再考
- Authors: Lukas Wutschitz, Boris K\"opf, Andrew Paverd, Saravan Rajmohan, Ahmed
Salem, Shruti Tople, Santiago Zanella-B\'eguelin, Menglin Xia, Victor R\"uhle
- Abstract要約: 現代の機械学習システムは、成長を続けるコーパスで訓練されたモデルを使用する。
オーナシップ、アクセス制御、ライセンス情報などのメタデータは、トレーニング中に無視される。
情報フロー制御の観点から機械学習システムを記述する。
- 参考スコア(独自算出の注目度): 16.487545258246932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern machine learning systems use models trained on ever-growing corpora.
Typically, metadata such as ownership, access control, or licensing information
is ignored during training. Instead, to mitigate privacy risks, we rely on
generic techniques such as dataset sanitization and differentially private
model training, with inherent privacy/utility trade-offs that hurt model
performance. Moreover, these techniques have limitations in scenarios where
sensitive information is shared across multiple participants and fine-grained
access control is required. By ignoring metadata, we therefore miss an
opportunity to better address security, privacy, and confidentiality
challenges. In this paper, we take an information flow control perspective to
describe machine learning systems, which allows us to leverage metadata such as
access control policies and define clear-cut privacy and confidentiality
guarantees with interpretable information flows. Under this perspective, we
contrast two different approaches to achieve user-level non-interference: 1)
fine-tuning per-user models, and 2) retrieval augmented models that access
user-specific datasets at inference time. We compare these two approaches to a
trivially non-interfering zero-shot baseline using a public model and to a
baseline that fine-tunes this model on the whole corpus. We evaluate trained
models on two datasets of scientific articles and demonstrate that retrieval
augmented architectures deliver the best utility, scalability, and flexibility
while satisfying strict non-interference guarantees.
- Abstract(参考訳): 現代の機械学習システムは、成長を続けるコーパスで訓練されたモデルを使用する。
通常、トレーニング中にオーナシップ、アクセス制御、ライセンス情報などのメタデータは無視される。
代わりに、プライバシのリスクを軽減するために、私たちは、データセットのサニタイズや差分的にプライベートなモデルトレーニングといった一般的なテクニックに依存しています。
さらに、これらの技術は、複数の参加者間で機密情報を共有し、きめ細かいアクセス制御を必要とするシナリオに制限がある。
メタデータを無視することで、セキュリティやプライバシ、機密性といった問題に対処する機会を逃します。
本稿では,機械学習システムを記述するための情報フロー制御の観点から,アクセス制御ポリシーなどのメタデータを活用し,情報フローを解釈可能な形で明確化されたプライバシーと機密性保証を定義する。
この観点から、ユーザレベルの非干渉を実現するための2つの異なるアプローチを対比する。
1)ユーザ毎の微調整,及び
2) 推論時にユーザ固有のデータセットにアクセスする拡張モデル。
これら2つのアプローチを,公開モデルを用いた自明な非干渉ゼロショットベースラインと,このモデルをコーパス全体に微調整するベースラインと比較した。
我々は,科学論文の2つのデータセットで訓練されたモデルを評価し,検索拡張アーキテクチャが,厳格な非干渉保証を満たしながら,最良の実用性,拡張性,柔軟性をもたらすことを実証する。
関連論文リスト
- Game-Theoretic Machine Unlearning: Mitigating Extra Privacy Leakage [12.737028324709609]
最近の法律では、要求されたデータとその影響を訓練されたモデルから取り除くことが義務付けられている。
本研究では,非学習性能とプライバシ保護の競合関係をシミュレートするゲーム理論マシンアンラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-06T13:47:04Z) - Verification of Machine Unlearning is Fragile [48.71651033308842]
両タイプの検証戦略を回避できる2つの新しい非学習プロセスを導入する。
この研究は、機械学習検証の脆弱性と限界を強調し、機械学習の安全性に関するさらなる研究の道を開く。
論文 参考訳(メタデータ) (2024-08-01T21:37:10Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Privacy Side Channels in Machine Learning Systems [87.53240071195168]
プライバシサイドチャネルは、システムレベルのコンポーネントを利用してプライベート情報を抽出する攻撃である。
例えば、差分プライベートなトレーニングを適用する前にトレーニングデータを重複させることで、保証可能なプライバシ保証を完全に無効にするサイドチャネルが生成されることを示す。
さらに,学習データセットに含まれる秘密鍵を抽出するために,言語モデルを学習データ再生からブロックするシステムを利用することを示す。
論文 参考訳(メタデータ) (2023-09-11T16:49:05Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Tight Auditing of Differentially Private Machine Learning [77.38590306275877]
プライベート機械学習では、既存の監査メカニズムは厳格である。
彼らは不確実な最悪の仮定の下でのみ厳密な見積もりを行う。
我々は、自然(逆向きではない)データセットの厳密なプライバシー推定を得られる改善された監査スキームを設計する。
論文 参考訳(メタデータ) (2023-02-15T21:40:33Z) - A Survey on Differential Privacy with Machine Learning and Future
Outlook [0.0]
差分プライバシーは、あらゆる攻撃や脆弱性から機械学習モデルを保護するために使用される。
本稿では,2つのカテゴリに分類される差分プライベート機械学習アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-11-19T14:20:53Z) - Applied Federated Learning: Architectural Design for Robust and
Efficient Learning in Privacy Aware Settings [0.8454446648908585]
古典的な機械学習パラダイムは、中央にユーザーデータの集約を必要とする。
データの集中化は、内部および外部のセキュリティインシデントのリスクを高めることを含むリスクを引き起こす。
差分プライバシーによるフェデレーション学習は、サーバ側の集中化落とし穴を避けるように設計されている。
論文 参考訳(メタデータ) (2022-06-02T00:30:04Z) - Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks,
and Defenses [150.64470864162556]
この作業は体系的に分類され、幅広いデータセット脆弱性とエクスプロイトを議論する。
様々な毒とバックドアの脅威モデルとそれらの関係を記述することに加えて,それらの統一分類法を展開する。
論文 参考訳(メタデータ) (2020-12-18T22:38:47Z) - SPEED: Secure, PrivatE, and Efficient Deep learning [2.283665431721732]
私たちは、強力なプライバシー制約に対処できるディープラーニングフレームワークを導入します。
協調学習、差分プライバシー、同型暗号化に基づいて、提案手法は最先端技術に進化する。
論文 参考訳(メタデータ) (2020-06-16T19:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。