論文の概要: DP-Mix: Mixup-based Data Augmentation for Differentially Private
Learning
- arxiv url: http://arxiv.org/abs/2311.01295v1
- Date: Thu, 2 Nov 2023 15:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 13:13:14.934398
- Title: DP-Mix: Mixup-based Data Augmentation for Differentially Private
Learning
- Title(参考訳): DP-Mix:個人差分学習のための混合型データ拡張
- Authors: Wenxuan Bao, Francesco Pittaluga, Vijay Kumar B G, Vincent
Bindschaedler
- Abstract要約: 本稿では,差分学習の制約に特化して設計された2つの新しいデータ拡張手法を提案する。
我々の最初のテクニックであるDP-Mix_Selfは、自己拡張データにミキサアップを施すことにより、さまざまなデータセットと設定にわたるSoTA分類性能を達成する。
第2の手法であるDP-Mix_Diffは、事前学習した拡散モデルから合成データを混合プロセスに組み込むことにより、さらなる性能向上を図る。
- 参考スコア(独自算出の注目度): 10.971246386083884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation techniques, such as simple image transformations and
combinations, are highly effective at improving the generalization of computer
vision models, especially when training data is limited. However, such
techniques are fundamentally incompatible with differentially private learning
approaches, due to the latter's built-in assumption that each training image's
contribution to the learned model is bounded. In this paper, we investigate why
naive applications of multi-sample data augmentation techniques, such as mixup,
fail to achieve good performance and propose two novel data augmentation
techniques specifically designed for the constraints of differentially private
learning. Our first technique, DP-Mix_Self, achieves SoTA classification
performance across a range of datasets and settings by performing mixup on
self-augmented data. Our second technique, DP-Mix_Diff, further improves
performance by incorporating synthetic data from a pre-trained diffusion model
into the mixup process. We open-source the code at
https://github.com/wenxuan-Bao/DP-Mix.
- Abstract(参考訳): 単純な画像変換や組合せなどのデータ拡張技術は、特にトレーニングデータが制限された場合、コンピュータビジョンモデルの一般化を改善するのに非常に効果的である。
しかし、これらの手法は、学習モデルへの各トレーニング画像の寄与が境界であるという仮定が組み込まれているため、本質的には微分プライベートな学習アプローチとは相容れない。
本稿では,ミキサアップなどのマルチサンプルデータ拡張技術が優れた性能を達成できなかった理由を考察し,差分学習の制約に特化して設計された2つの新しいデータ拡張手法を提案する。
第1の手法であるdp-mix_selfは,自己提供データ上でミックスアップを行うことで,データセットや設定の広範囲にわたるsoma分類性能を実現する。
第2の手法であるDP-Mix_Diffは、事前学習した拡散モデルから合成データを混合プロセスに組み込むことにより、さらなる性能向上を図る。
ソースコードはhttps://github.com/wenxuan-Bao/DP-Mix.comで公開しています。
関連論文リスト
- Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - DANCE: Dual-View Distribution Alignment for Dataset Condensation [39.08022095906364]
我々は、データセットのコンディエンテーション(DANCE)のためのDMベースの新しいDual-view Distribution AligNmentを提案する。
具体的には、内部クラスの観点から複数の「中間エンコーダ」を構築し、擬似的な長期分布アライメントを行う。
クラス間の観点からは,分布キャリブレーションを行うために専門家モデルを用いる。
論文 参考訳(メタデータ) (2024-06-03T07:22:17Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - PrivImage: Differentially Private Synthetic Image Generation using Diffusion Models with Semantic-Aware Pretraining [13.823621924706348]
差分プライバシー(DP)画像データ合成により、企業はプライバシの懸念なしに合成画像を共有し、利用することができる。
従来の手法では、生成モデルの高度な技術と、公開データセットでの事前学習を取り入れて、例外的なDP画像データを生成する。
本稿では,事前学習データを慎重に選択する新しいDP画像合成手法PRIVIMAGEを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:04:53Z) - Diffusion Model for Dense Matching [34.13580888014]
ペア画像間の密接な対応を確立する目的は、データ項と先行項の2つの項からなる。
我々はDiffMatchを提案する。DiffMatchは、データと事前条件の両方を明示的にモデル化する新しい条件付き拡散ベースのフレームワークである。
実験の結果,既存の手法に比べて,提案手法の大幅な性能向上が示された。
論文 参考訳(メタデータ) (2023-05-30T14:58:24Z) - Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data [0.0]
生成モデルは現実的なイメージの作成に優れていますが、トレーニングのための広範なデータセットに依存しているため、大きな課題があります。
現在のデータ効率の手法はGANアーキテクチャに重点を置いており、他の生成モデルの訓練にギャップを残している。
位相データ拡張(phased data augmentation)は、このギャップに対処する新しい手法であり、データ分散に固有の変更を加えることなく、限られたデータシナリオでのトレーニングを最適化する。
論文 参考訳(メタデータ) (2023-05-22T03:38:59Z) - MixupE: Understanding and Improving Mixup from Directional Derivative
Perspective [86.06981860668424]
理論上は、バニラ・ミックスアップよりも優れた一般化性能を実現するために、Mixupの改良版を提案する。
提案手法は,様々なアーキテクチャを用いて,複数のデータセットにまたがるMixupを改善した。
論文 参考訳(メタデータ) (2022-12-27T07:03:52Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。