論文の概要: Privacy and Accuracy-Aware AI/ML Model Deduplication
- arxiv url: http://arxiv.org/abs/2503.02862v1
- Date: Tue, 04 Mar 2025 18:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:12:35.390812
- Title: Privacy and Accuracy-Aware AI/ML Model Deduplication
- Title(参考訳): プライバシと正確性を考慮したAI/MLモデルの重複
- Authors: Hong Guan, Lei Yu, Lixi Zhou, Li Xiong, Kanchan Chowdhury, Lulu Xie, Xusheng Xiao, Jia Zou,
- Abstract要約: DP学習モデルの非重複化問題を初めて定式化する。
この問題に対処するために,プライバシと精度に配慮した新しい重複機構を提案する。
プライバシ保証を提供しないベースラインと比較して、当社のアプローチでは、個々のモデルに対して最大35タイムの圧縮比を向上しました。
- 参考スコア(独自算出の注目度): 13.079703200162758
- License:
- Abstract: With the growing adoption of privacy-preserving machine learning algorithms, such as Differentially Private Stochastic Gradient Descent (DP-SGD), training or fine-tuning models on private datasets has become increasingly prevalent. This shift has led to the need for models offering varying privacy guarantees and utility levels to satisfy diverse user requirements. However, managing numerous versions of large models introduces significant operational challenges, including increased inference latency, higher resource consumption, and elevated costs. Model deduplication is a technique widely used by many model serving and database systems to support high-performance and low-cost inference queries and model diagnosis queries. However, none of the existing model deduplication works has considered privacy, leading to unbounded aggregation of privacy costs for certain deduplicated models and inefficiencies when applied to deduplicate DP-trained models. We formalize the problems of deduplicating DP-trained models for the first time and propose a novel privacy- and accuracy-aware deduplication mechanism to address the problems. We developed a greedy strategy to select and assign base models to target models to minimize storage and privacy costs. When deduplicating a target model, we dynamically schedule accuracy validations and apply the Sparse Vector Technique to reduce the privacy costs associated with private validation data. Compared to baselines that do not provide privacy guarantees, our approach improved the compression ratio by up to $35\times$ for individual models (including large language models and vision transformers). We also observed up to $43\times$ inference speedup due to the reduction of I/O operations.
- Abstract(参考訳): DP-SGD(differially Private Stochastic Gradient Descent)のようなプライバシ保護機械学習アルゴリズムの採用の増加に伴い、プライベートデータセットのトレーニングや微調整モデルがますます普及している。
このシフトは、多様なユーザ要求を満たすために、さまざまなプライバシ保証とユーティリティレベルを提供するモデルの必要性につながった。
しかし、多数のバージョンの大規模モデルの管理には、推論遅延の増加、リソース消費の増大、コストの上昇など、大きな運用上の課題が伴う。
モデル重複は、高性能で低コストな推論クエリとモデル診断クエリをサポートするために、多くのモデルサービスやデータベースシステムで広く使われているテクニックである。
しかしながら、既存のモデル重複はいずれもプライバシを考慮せず、特定の非重複モデルに対するプライバシーコストの無拘束集約と、DP訓練モデルの非重複化に適用した場合の非効率化につながっている。
本稿では,DP学習モデルの分散化に関する問題を初めて定式化し,その問題に対処するための新しいプライバシと精度を考慮した重複機構を提案する。
ストレージとプライバシのコストを最小限に抑えるため、ベースモデルを選択して、ターゲットモデルに割り当てるための欲張り戦略を開発しました。
対象モデルを分割する場合、精度検証を動的にスケジュールし、Sparse Vector Techniqueを適用し、プライベート検証データに関連するプライバシコストを削減する。
プライバシ保証を提供しないベースラインと比較して、当社のアプローチでは、個々のモデル(大規模言語モデルやビジョントランスフォーマーを含む)の圧縮比を最大35\times$で改善しました。
また,I/O操作の削減により,最大43\times$推論速度が向上した。
関連論文リスト
- Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Sparsity-Preserving Differentially Private Training of Large Embedding
Models [67.29926605156788]
DP-SGDは、差分プライバシーと勾配降下を組み合わせたトレーニングアルゴリズムである。
DP-SGDをネーティブに埋め込みモデルに適用すると、勾配の間隔が破壊され、トレーニング効率が低下する。
我々は,大規模埋め込みモデルのプライベートトレーニングにおいて,勾配間隔を保ったDP-FESTとDP-AdaFESTの2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:59:51Z) - Selective Pre-training for Private Fine-tuning [33.55628974557588]
パブリックデータセットでの注意深い事前トレーニングは、小さな言語モデルを異なるプライバシでトレーニングするために不可欠であることを示す。
その結果、より小さなモデルでは、注意深い事前トレーニングとプライベートな微調整によって、プライベートデータにアクセスできないはるかに大きなモデルの性能にマッチすることを示した。
論文 参考訳(メタデータ) (2023-05-23T09:36:58Z) - Graphical vs. Deep Generative Models: Measuring the Impact of Differentially Private Mechanisms and Budgets on Utility [18.213030598476198]
私たちはグラフィカルモデルと深層生成モデルを比較し、プライバシー予算の支出に寄与する重要な要素に注目します。
グラフィカルモデルでは,プライバシ予算を水平方向に分散させることで,一定のトレーニング時間において比較的広いデータセットを処理できないことがわかった。
深層生成モデルはイテレーション毎に予算を消費するので、その振る舞いはさまざまなデータセットの次元で予測できない。
論文 参考訳(メタデータ) (2023-05-18T14:14:42Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z) - An Efficient DP-SGD Mechanism for Large Scale NLP Models [28.180412581994485]
自然言語理解(NLU)モデルを訓練するために使用されるデータは、住所や電話番号などのプライベート情報を含むことができる。
基礎となるモデルは、トレーニングデータに含まれるプライベート情報を公開しないことが望ましい。
プライバシ保護モデルを構築するメカニズムとして,DP-SGD(Fariially Private Gradient Descent)が提案されている。
論文 参考訳(メタデータ) (2021-07-14T15:23:27Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。