論文の概要: Differentially Private Active Learning: Balancing Effective Data Selection and Privacy
- arxiv url: http://arxiv.org/abs/2410.00542v1
- Date: Tue, 1 Oct 2024 09:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:57:03.287157
- Title: Differentially Private Active Learning: Balancing Effective Data Selection and Privacy
- Title(参考訳): Differentially Private Active Learning: 効果的なデータ選択とプライバシのバランス
- Authors: Kristian Schwethelm, Johannes Kaiser, Jonas Kuntzer, Mehmet Yigitsoy, Daniel Rueckert, Georgios Kaissis,
- Abstract要約: 標準学習設定のための差分プライベートアクティブラーニング(DP-AL)を導入する。
本研究では,DP-SGDトレーニングをALに統合することで,プライバシ予算の割り当てやデータ利用において大きな課題が生じることを実証する。
視覚および自然言語処理タスクに関する実験は,DP-ALが特定のデータセットやモデルアーキテクチャの性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 11.716423801223776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning (AL) is a widely used technique for optimizing data labeling in machine learning by iteratively selecting, labeling, and training on the most informative data. However, its integration with formal privacy-preserving methods, particularly differential privacy (DP), remains largely underexplored. While some works have explored differentially private AL for specialized scenarios like online learning, the fundamental challenge of combining AL with DP in standard learning settings has remained unaddressed, severely limiting AL's applicability in privacy-sensitive domains. This work addresses this gap by introducing differentially private active learning (DP-AL) for standard learning settings. We demonstrate that naively integrating DP-SGD training into AL presents substantial challenges in privacy budget allocation and data utilization. To overcome these challenges, we propose step amplification, which leverages individual sampling probabilities in batch creation to maximize data point participation in training steps, thus optimizing data utilization. Additionally, we investigate the effectiveness of various acquisition functions for data selection under privacy constraints, revealing that many commonly used functions become impractical. Our experiments on vision and natural language processing tasks show that DP-AL can improve performance for specific datasets and model architectures. However, our findings also highlight the limitations of AL in privacy-constrained environments, emphasizing the trade-offs between privacy, model accuracy, and data selection accuracy.
- Abstract(参考訳): アクティブラーニング(英: Active Learning, AL)は、機械学習におけるデータラベリングを、最も情報性の高いデータに対して反復的に選択、ラベル付け、トレーニングすることで最適化する手法である。
しかし、正式なプライバシー保護手法、特に差分プライバシー(DP)との統合は、いまだに未調査である。
いくつかの研究は、オンライン学習のような特殊なシナリオにおいて、異なるプライベートなALを探索してきたが、標準的な学習環境において、ALとDPを組み合わせるという根本的な課題は、プライバシに敏感なドメインにおけるALの適用性を著しく制限し、未適応のままである。
本研究は、標準学習設定のための差分プライベートアクティブラーニング(DP-AL)を導入することで、このギャップに対処する。
本研究では,DP-SGDトレーニングをALに統合することで,プライバシ予算の割り当てやデータ利用において大きな課題が生じることを実証する。
これらの課題を克服するために、バッチ生成における個々のサンプリング確率を活用して、トレーニングステップにおけるデータポイントの参加を最大化し、データ利用を最適化するステップ増幅を提案する。
さらに,プライバシ制約下でのデータ選択における各種取得関数の有効性について検討し,一般的に使用される関数の多くが実用的でないことを明らかにする。
視覚および自然言語処理タスクに関する実験は,DP-ALが特定のデータセットやモデルアーキテクチャの性能を向上させることを示す。
しかし、プライバシーに制約のある環境でのALの限界も強調し、プライバシ、モデル精度、データ選択精度のトレードオフを強調した。
関連論文リスト
- Masked Differential Privacy [64.32494202656801]
本稿では,差分プライバシーを適用した機密領域を制御できる「マスク型差分プライバシー(DP)」という効果的なアプローチを提案する。
提案手法はデータに基づいて選択的に動作し,DPアプリケーションや差分プライバシーをデータサンプル内の他のプライバシー技術と組み合わせることなく,非感性時間領域を定義できる。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - Privately Learning from Graphs with Applications in Fine-tuning Large Language Models [16.972086279204174]
金融や医療といった繊細な分野のリレーショナルデータは、しばしば私的な情報を含んでいる。
DP-SGDのような既存のプライバシー保護手法は、関係学習には適していない。
トレーニング中にサンプル関係の依存関係を分離するプライバシー保護型関係学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:38:38Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Approximate Gradient Coding for Privacy-Flexible Federated Learning with Non-IID Data [9.984630251008868]
この研究は、フェデレートラーニングにおける非IIDデータとストラグラー/ドロップアウトの課題に焦点を当てる。
クライアントのローカルデータの一部を非プライベートとしてモデル化する、プライバシフレキシブルなパラダイムを導入し、検討する。
論文 参考訳(メタデータ) (2024-04-04T15:29:50Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Safeguarding Data in Multimodal AI: A Differentially Private Approach to
CLIP Training [15.928338716118697]
本稿では,コントラスト言語-画像事前学習(CLIP)モデルの個人適応について紹介する。
提案手法であるDp-CLIPをベンチマークデータを用いて厳密に評価する。
論文 参考訳(メタデータ) (2023-06-13T23:32:09Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Personalization Improves Privacy-Accuracy Tradeoffs in Federated
Optimization [57.98426940386627]
局所的な学習とプライベートな集中学習の協調は、総合的に有用であり、精度とプライバシのトレードオフを改善していることを示す。
合成および実世界のデータセットに関する実験により理論的結果について述べる。
論文 参考訳(メタデータ) (2022-02-10T20:44:44Z) - Task-aware Privacy Preservation for Multi-dimensional Data [4.138783926370621]
ローカルディファレンシャルプライバシ(LDP)は、プライバシ保護のための最先端技術である。
将来的には、よりリッチなユーザデータ属性を匿名化するために、LCPを採用することができる。
課題認識型プライバシ保存問題を考慮し,多次元ユーザデータの究極のタスク性能を大幅に向上させる方法について述べる。
論文 参考訳(メタデータ) (2021-10-05T20:03:53Z) - Anonymizing Data for Privacy-Preserving Federated Learning [3.3673553810697827]
我々は,フェデレートラーニングの文脈において,プライバシを提供するための最初の構文的アプローチを提案する。
当社のアプローチは,プライバシの保護レベルをサポートしながら,実用性やモデルの性能を最大化することを目的としている。
医療領域における2つの重要な課題について,100万人の患者の実世界電子健康データを用いて包括的実証評価を行った。
論文 参考訳(メタデータ) (2020-02-21T02:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。