Fugu-MT 論文翻訳(概要): Privacy-preserving datasets by capturing feature distributions with Conditional VAEs

論文の概要: Privacy-preserving datasets by capturing feature distributions with Conditional VAEs

arxiv url: http://arxiv.org/abs/2408.00639v1
Date: Thu, 1 Aug 2024 15:26:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-04 20:16:43.398374
Title: Privacy-preserving datasets by capturing feature distributions with Conditional VAEs
Title（参考訳）: Conditional VAEによる特徴分布のキャプチャによるプライバシ保護データセット
Authors: Francesco Di Salvo, David Tafler, Sebastian Doerrich, Christian Ledig,
Abstract要約: 条件付き変分オートエンコーダ(CVAE)は、大きな事前学習された視覚基盤モデルから抽出された特徴ベクトルに基づいて訓練される。本手法は, 医用領域と自然画像領域の両方において, 従来のアプローチよりも優れている。結果は、データスカースおよびプライバシに敏感な環境におけるディープラーニングアプリケーションに大きな影響を与える生成モデルの可能性を強調している。
参考スコア（独自算出の注目度）: 0.11999555634662634
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large and well-annotated datasets are essential for advancing deep learning applications, however often costly or impossible to obtain by a single entity. In many areas, including the medical domain, approaches relying on data sharing have become critical to address those challenges. While effective in increasing dataset size and diversity, data sharing raises significant privacy concerns. Commonly employed anonymization methods based on the k-anonymity paradigm often fail to preserve data diversity, affecting model robustness. This work introduces a novel approach using Conditional Variational Autoencoders (CVAEs) trained on feature vectors extracted from large pre-trained vision foundation models. Foundation models effectively detect and represent complex patterns across diverse domains, allowing the CVAE to faithfully capture the embedding space of a given data distribution to generate (sample) a diverse, privacy-respecting, and potentially unbounded set of synthetic feature vectors. Our method notably outperforms traditional approaches in both medical and natural image domains, exhibiting greater dataset diversity and higher robustness against perturbations while preserving sample privacy. These results underscore the potential of generative models to significantly impact deep learning applications in data-scarce and privacy-sensitive environments. The source code is available at https://github.com/francescodisalvo05/cvae-anonymization .
Abstract（参考訳）: 大規模かつ十分に注釈付けされたデータセットは、ディープラーニングアプリケーションを前進させるのに不可欠だが、単一のエンティティによって取得するコストや不可能がしばしばある。医療分野を含む多くの分野において、これらの課題に対処するためには、データ共有に依存するアプローチが重要になっている。データセットのサイズと多様性の増大には有効だが、データ共有は重要なプライバシー上の懸念を提起する。通常、k-匿名性パラダイムに基づく匿名化手法は、しばしばデータの多様性を保たず、モデルの堅牢性に影響を及ぼす。本研究では,大規模な事前学習型視覚基盤モデルから抽出した特徴ベクトルに基づいて,条件付き変分オートエンコーダ(CVAE)を用いた新しい手法を提案する。ファンデーションモデルは、様々な領域にまたがる複雑なパターンを効果的に検出し、表現し、CVAEは、与えられたデータ分布の埋め込み空間を忠実に捉え、多様でプライバシーを尊重し、潜在的に有界な合成特徴ベクトルを生成する(サンプル)。提案手法は, 医用領域と自然画像領域の両方において従来の手法よりも優れており, サンプルプライバシーを維持しながら, データセットの多様性と摂動に対する堅牢性が高い。これらの結果は、データスカースおよびプライバシに敏感な環境におけるディープラーニングアプリケーションに大きな影響を与える生成モデルの可能性を強調している。ソースコードはhttps://github.com/francescodisalvo05/cvae-anonymization で公開されている。

関連論文リスト

Embedding-Based Federated Data Sharing via Differentially Private Conditional VAEs [0.13108652488669734]
フェデレートラーニング(FL)は、分散トレーニングを可能にするが、高いコミュニケーションコストに悩まされる。差分的プライベート(DP)生成モデルを用いたデータ共有手法を提案する。クライアントは、グローバルでプライバシを意識したデータ配布をモデル化するために、差分的にプライベートな条件変分自動エンコーダ(DP-CVAE)を共同でトレーニングする。
論文参考訳（メタデータ） (2025-07-03T14:36:15Z)
Privacy-Preserving Federated Unsupervised Domain Adaptation for Regression on Small-Scale and High-Dimensional Biological Data [2.699900017799093]
fredaは、回帰タスクにおける教師なしドメイン適応のためのプライバシ保護フェデレーション方式である。そこで本研究では,DNAメチル化データから年齢予測の課題についてフレダの評価を行い,その性能が最先端技術に匹敵することを示した。
論文参考訳（メタデータ） (2024-11-26T10:19:16Z)
A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文参考訳（メタデータ） (2024-08-01T07:40:00Z)
Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T14:28:56Z)
PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文参考訳（メタデータ） (2023-10-03T22:37:01Z)
A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文参考訳（メタデータ） (2023-09-27T14:38:16Z)
Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文参考訳（メタデータ） (2023-07-04T18:37:11Z)
Phoenix: A Federated Generative Diffusion Model [6.09170287691728]
大規模な集中型データセットで生成モデルをトレーニングすることで、データのプライバシやセキュリティ、アクセシビリティといった面での課題が発生する可能性がある。本稿では,フェデレートラーニング(FL)技術を用いて,複数のデータソースにまたがる拡散確率モデル(DDPM)の学習手法を提案する。
論文参考訳（メタデータ） (2023-06-07T01:43:09Z)
Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2022-11-07T10:02:55Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
Differentially Private Synthetic Medical Data Generation using Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文参考訳（メタデータ） (2020-12-22T01:03:49Z)
P3GM: Private High-Dimensional Data Release via Privacy Preserving Phased Generative Model [23.91327154831855]
本稿では,プライバシ保護型位相生成モデル(P3GM)を提案する。 P3GMは2段階の学習プロセスを採用し、ノイズに対して堅牢にし、学習効率を向上させる。最先端の手法と比較して、生成したサンプルはノイズが少なく、データ多様性の観点からも元のデータに近いように見える。
論文参考訳（メタデータ） (2020-06-22T09:47:54Z)
GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially Private Generators [74.16405337436213]
我々は、GS-WGAN(Gradient-sanitized Wasserstein Generative Adrial Networks)を提案する。 GS-WGANは、厳格なプライバシー保証を備えた機密データの衛生的な形式での公開を可能にする。このアプローチは、複数のメトリクスにわたる最先端のアプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2020-06-15T10:01:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。