論文の概要: Positive-Unlabeled Diffusion Models for Preventing Sensitive Data Generation
- arxiv url: http://arxiv.org/abs/2503.03789v1
- Date: Wed, 05 Mar 2025 07:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:54.634629
- Title: Positive-Unlabeled Diffusion Models for Preventing Sensitive Data Generation
- Title(参考訳): 感性データ生成防止のための正のラベル付き拡散モデル
- Authors: Hiroshi Takahashi, Tomoharu Iwata, Atsutoshi Kumagai, Yuuki Yamanaka, Tomoya Yamashita,
- Abstract要約: 拡散モデルは強力な生成モデルであるが、しばしばユーザが望まない機密データを生成する。
本研究では,ラベルなし・機密データを用いたセンシティブなデータ生成を防止するために,正のラベル付き拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 28.922166683057046
- License:
- Abstract: Diffusion models are powerful generative models but often generate sensitive data that are unwanted by users, mainly because the unlabeled training data frequently contain such sensitive data. Since labeling all sensitive data in the large-scale unlabeled training data is impractical, we address this problem by using a small amount of labeled sensitive data. In this paper, we propose positive-unlabeled diffusion models, which prevent the generation of sensitive data using unlabeled and sensitive data. Our approach can approximate the evidence lower bound (ELBO) for normal (negative) data using only unlabeled and sensitive (positive) data. Therefore, even without labeled normal data, we can maximize the ELBO for normal data and minimize it for labeled sensitive data, ensuring the generation of only normal data. Through experiments across various datasets and settings, we demonstrated that our approach can prevent the generation of sensitive images without compromising image quality.
- Abstract(参考訳): 拡散モデルは強力な生成モデルであるが、主にラベル付けされていないトレーニングデータがそのようなセンシティブなデータを含んでいるため、ユーザによって望まれないセンシティブなデータを生成することが多い。
大規模未ラベルトレーニングデータにすべての機密データをラベル付けすることは現実的ではないため,少数のラベル付きセンシティブデータを用いてこの問題に対処する。
本稿では,非ラベル付き・機密データを用いたセンシティブなデータ生成を防止するために,正の非ラベル付き拡散モデルを提案する。
提案手法は,非ラベル付き・感度(正)データのみを用いて,通常の(負)データに対してELBO(Low bound)を近似することができる。
したがって、ラベル付き正規データがなくても、通常のデータに対してELBOを最大化し、ラベル付き機密データに対して最小化し、正規データのみを確実に生成することができる。
様々なデータセットや設定の実験を通じて、画像の品質を損なうことなく、センシティブな画像の生成を防止できることを実証した。
関連論文リスト
- Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - You can't handle the (dirty) truth: Data-centric insights improve pseudo-labeling [60.27812493442062]
擬似ラベル法を改善するためにラベル付きデータ品質を調査することが重要であることを示す。
具体的には、擬似ラベルの拡張のために、DIPSと呼ばれる新しいデータキャラクタリゼーションと選択フレームワークを導入する。
本研究では,多種多様な実世界のデータセットを対象とした擬似ラベル手法に対するDIPSの適用性と影響を実証する。
論文 参考訳(メタデータ) (2024-06-19T17:58:40Z) - Deep Positive-Unlabeled Anomaly Detection for Contaminated Unlabeled Data [31.029029510114448]
本稿では, 深い正のラベルのない異常検出フレームワークを提案する。
肯定的未ラベル学習と深い異常検出モデルを統合する。
提案手法は既存の手法よりも優れた検出性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T09:34:47Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - SPADE: Semi-supervised Anomaly Detection under Distribution Mismatch [58.04518381476167]
SPADEは、分布ミスマッチを伴う幅広いシナリオにわたって、最先端の半教師付き異常検出性能を示す。
新しいタイプのラベルのない異常に直面したモデルなど、いくつかの一般的な現実世界設定では、SPADEは最先端の代替品を平均5%のAUCで上回っている。
論文 参考訳(メタデータ) (2022-11-30T23:39:11Z) - Improving Semi-supervised Deep Learning by using Automatic Thresholding
to Deal with Out of Distribution Data for COVID-19 Detection using Chest
X-ray Images [0.0]
ラベルなしデータセットにおける分布外データをフィルタリングする自動しきい値抽出法を提案する。
胸部X線画像を用いた新型コロナウイルス検出装置の訓練において,2つの簡単な自動しきい値設定法を検証した。
論文 参考訳(メタデータ) (2022-11-03T20:56:45Z) - Latent Outlier Exposure for Anomaly Detection with Contaminated Data [31.446666264334528]
異常検出は、ラベルなしデータセットの大多数のデータから体系的なずれを示すデータポイントを特定することを目的としている。
本稿では,広範囲のモデルと互換性のあるラベルのない異常が存在する場合に,異常検知器を訓練するための戦略を提案する。
論文 参考訳(メタデータ) (2022-02-16T14:21:28Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - They are Not Completely Useless: Towards Recycling Transferable
Unlabeled Data for Class-Mismatched Semi-Supervised Learning [61.46572463531167]
SSL(Semi-Supervised Learning)とミスマッチしたクラスは、制限されたラベル付きデータにおける関心のクラスが、巨大なラベル付きデータに含まれるクラスのサブセットである、という問題に対処する。
本稿では,クラスミスマッチ型SSLを実現するために,TOOR(Transferable OOD data recycling)手法を提案する。
論文 参考訳(メタデータ) (2020-11-27T02:29:35Z) - VAEs in the Presence of Missing Data [6.397263087026567]
我々は、欠落したデータを生成する汚職過程の新しい潜伏変数モデルを開発し、対応する抽出可能なエビデンスローバウンド(ELBO)を導出する。
我々のモデルは実装が簡単で、無作為データ(MCAR)と無作為データ(MNAR)の両方を処理でき、高次元入力にスケールし、データ要素が欠落しているか否かの指標変数にVAEエンコーダとデコーダの両方にアクセスできる。
MNISTとSVHNデータセットでは、既存のアプローチと比較して、観測データの辺りのログライクな改善と、データ計算の欠如の改善が示されている。
論文 参考訳(メタデータ) (2020-06-09T14:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。