論文の概要: Leveraging gradient-derived metrics for data selection and valuation in
differentially private training
- arxiv url: http://arxiv.org/abs/2305.02942v2
- Date: Fri, 5 May 2023 09:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 10:33:46.447168
- Title: Leveraging gradient-derived metrics for data selection and valuation in
differentially private training
- Title(参考訳): 微分プライベートトレーニングにおけるデータ選択と評価のための勾配由来メトリクスの活用
- Authors: Dmitrii Usynin, Daniel Rueckert, Georgios Kaissis
- Abstract要約: 個人のトレーニング設定に関心のあるトレーニングサンプルを識別するために、勾配情報を活用する方法を示す。
厳密なプライバシ設定であっても,クライアントにデータ選択の原則を提供する技術が存在することを示す。
- 参考スコア(独自算出の注目度): 7.49320945341034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Obtaining high-quality data for collaborative training of machine learning
models can be a challenging task due to A) the regulatory concerns and B) lack
of incentive to participate. The first issue can be addressed through the use
of privacy enhancing technologies (PET), one of the most frequently used one
being differentially private (DP) training. The second challenge can be
addressed by identifying which data points can be beneficial for model training
and rewarding data owners for sharing this data. However, DP in deep learning
typically adversely affects atypical (often informative) data samples, making
it difficult to assess the usefulness of individual contributions. In this work
we investigate how to leverage gradient information to identify training
samples of interest in private training settings. We show that there exist
techniques which are able to provide the clients with the tools for principled
data selection even in strictest privacy settings.
- Abstract(参考訳): 機械学習モデルの協調トレーニングのための高品質なデータを得ることは、a)規制上の懸念とb)参加意欲の欠如のために難しい課題である。
プライバシ強化技術(pet: privacy enhancement technologies)は、最も頻繁に使用されるもののひとつで、差分プライベート(diffially private、dp)トレーニングである。
2つ目の課題は、モデルトレーニングにどのデータポイントが有用かを特定し、データ共有にデータ所有者に報奨を与えることである。
しかし、深層学習におけるdpは典型的には非定型的(しばしば有益な)データサンプルに悪影響を及ぼすため、個々の貢献の有用性を評価することは困難である。
本研究では,個人の学習環境に関心のあるトレーニングサンプルを特定するために,勾配情報を活用する方法について検討する。
最も厳格なプライバシー設定でも、クライアントに原則的なデータ選択ツールを提供することのできる技術があることを実証する。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Unlocking Accuracy and Fairness in Differentially Private Image
Classification [43.53494043189235]
差別化プライバシ(DP)は、プライバシ保護トレーニングのための金の標準フレームワークと考えられている。
DPを微調整した事前学習基礎モデルでは,非私的分類器と同様の精度が得られることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:42:33Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - Transferable Unlearnable Examples [63.64357484690254]
第三者が許可なくデータのトレーニングを行うのを防ぐために、学べない戦略が導入された。
公開前にユーザーのデータに摂動を追加することで、公開データセットでトレーニングされたモデルを無効にすることを目指している。
本稿では、学習不可能な効果を他のトレーニング設定やデータセットに伝達することを目的とした、クラスワイズ・セパビリティ・ディミナント(CSD)に基づく新しい学習不可能な戦略を提案する。
論文 参考訳(メタデータ) (2022-10-18T19:23:52Z) - Personalized PATE: Differential Privacy for Machine Learning with
Individual Privacy Guarantees [1.2691047660244335]
トレーニングデータ内に、パーソナライズされたプライバシ保証の異なるMLモデルのトレーニングを支援する3つの新しい方法を提案する。
実験により, 個人化されたプライバシ手法は, 非個人化されたベースラインよりも高い精度のモデルが得られることがわかった。
論文 参考訳(メタデータ) (2022-02-21T20:16:27Z) - GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially
Private Generators [74.16405337436213]
我々は、GS-WGAN(Gradient-sanitized Wasserstein Generative Adrial Networks)を提案する。
GS-WGANは、厳格なプライバシー保証を備えた機密データの衛生的な形式での公開を可能にする。
このアプローチは、複数のメトリクスにわたる最先端のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2020-06-15T10:01:01Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Anonymizing Data for Privacy-Preserving Federated Learning [3.3673553810697827]
我々は,フェデレートラーニングの文脈において,プライバシを提供するための最初の構文的アプローチを提案する。
当社のアプローチは,プライバシの保護レベルをサポートしながら,実用性やモデルの性能を最大化することを目的としている。
医療領域における2つの重要な課題について,100万人の患者の実世界電子健康データを用いて包括的実証評価を行った。
論文 参考訳(メタデータ) (2020-02-21T02:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。