論文の概要: Leveraging Contaminated Datasets to Learn Clean-Data Distribution with
Purified Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2302.01722v1
- Date: Fri, 3 Feb 2023 13:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 16:18:58.174674
- Title: Leveraging Contaminated Datasets to Learn Clean-Data Distribution with
Purified Generative Adversarial Networks
- Title(参考訳): 汚染されたデータセットを活用してクリーンなデータ分散を学習する
- Authors: Bowen Tian, Qinliang Su, Jianxing Yu
- Abstract要約: GAN(Generative Adversarial Network)は、トレーニングインスタンスの基盤となる分布を捉える能力で知られている。
既存のGANはトレーニングデータセットがクリーンであるという前提でほぼ確立されている。
多くの現実世界のアプリケーションでは、これは、トレーニングデータセットが望ましくないインスタンスの割合で汚染されるという、保持できないかもしれない。
2つのPuriGAN(PuriGAN)が開発され、識別器はターゲットインスタンスと汚染インスタンスを区別する能力で拡張される。
- 参考スコア(独自算出の注目度): 15.932410447038697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative adversarial networks (GANs) are known for their strong abilities
on capturing the underlying distribution of training instances. Since the
seminal work of GAN, many variants of GAN have been proposed. However, existing
GANs are almost established on the assumption that the training dataset is
clean. But in many real-world applications, this may not hold, that is, the
training dataset may be contaminated by a proportion of undesired instances.
When training on such datasets, existing GANs will learn a mixture distribution
of desired and contaminated instances, rather than the desired distribution of
desired data only (target distribution). To learn the target distribution from
contaminated datasets, two purified generative adversarial networks (PuriGAN)
are developed, in which the discriminators are augmented with the capability to
distinguish between target and contaminated instances by leveraging an extra
dataset solely composed of contamination instances. We prove that under some
mild conditions, the proposed PuriGANs are guaranteed to converge to the
distribution of desired instances. Experimental results on several datasets
demonstrate that the proposed PuriGANs are able to generate much better images
from the desired distribution than comparable baselines when trained on
contaminated datasets. In addition, we also demonstrate the usefulness of
PuriGAN on downstream applications by applying it to the tasks of
semi-supervised anomaly detection on contaminated datasets and PU-learning.
Experimental results show that PuriGAN is able to deliver the best performance
over comparable baselines on both tasks.
- Abstract(参考訳): generative adversarial network (gans) は、トレーニングインスタンスの基盤となる分布を捉える能力が強いことで知られている。
GANの精巧な研究以来、多くの変種が提案されている。
しかし、既存のGANはトレーニングデータセットがクリーンであるという前提でほぼ確立されている。
しかし、多くの現実世界のアプリケーションでは、これは、トレーニングデータセットが望ましくないインスタンスの比率で汚染されるという、保持できないかもしれない。
このようなデータセットをトレーニングする場合、既存のGANは、望ましいデータのみの分布(ターゲット分布)ではなく、望ましいインスタンスと汚染されたインスタンスの混合分布を学習する。
汚染されたデータセットからターゲット分布を学習するために、汚染インスタンスのみからなる余分なデータセットを利用して、識別器をターゲットインスタンスと汚染インスタンスとを区別する能力で拡張する、2つの精製された生成逆ネットワーク(purigan)を開発した。
いくつかの穏やかな条件下では、提案されたPuriGANは所望のインスタンスの分布に収束することが保証される。
いくつかのデータセットにおける実験結果は、汚染されたデータセットでトレーニングされた場合、提案するピューリガンは同等のベースラインよりも所望の分布からはるかに良い画像を生成することができることを示した。
さらに,汚染データセットとpu-learningの半教師あり異常検出タスクに適用することにより,下流アプリケーションにおけるpuriganの有用性を実証する。
実験の結果、PuriGANは両方のタスクで同等のベースラインで最高のパフォーマンスを提供できることがわかった。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Reward-Directed Conditional Diffusion: Provable Distribution Estimation
and Reward Improvement [42.45888600367566]
Directed Generationは、報酬関数によって測定された望ましい特性を持つサンプルを生成することを目的としている。
我々は、データセットがラベルのないデータと、ノイズの多い報酬ラベルを持つ小さなデータセットから構成される一般的な学習シナリオを考察する。
論文 参考訳(メタデータ) (2023-07-13T20:20:40Z) - Probabilistic Matching of Real and Generated Data Statistics in Generative Adversarial Networks [0.6906005491572401]
本稿では,あるデータ統計量の分布が実データの分布と一致することを確実にする手法を提案する。
提案手法を合成データセットと実世界のデータセットで評価し,提案手法の性能向上を実証した。
論文 参考訳(メタデータ) (2023-06-19T14:03:27Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - MaGNET: Uniform Sampling from Deep Generative Network Manifolds Without
Retraining [9.294580808320534]
我々は、DGNが訓練された場合、学習多様体上に均一に分布するサンプルを生成する、微分幾何学に基づくサンプリング器、MaGNETを開発した。
我々は,この手法がトレーニングセットの分布によらず,多様体上の一様分布を生成することを理論的かつ実証的に証明する。
論文 参考訳(メタデータ) (2021-10-15T11:12:56Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Lessons Learned from the Training of GANs on Artificial Datasets [0.0]
GAN(Generative Adversarial Networks)は,近年,現実的な画像の合成において大きな進歩を遂げている。
GANは不適合や過度に適合する傾向があり、分析が困難で制約を受ける。
無限に多くのサンプルがあり、実際のデータ分布は単純である人工データセットでトレーニングする。
GANのトレーニング混合物はネットワークの深さや幅を増大させるよりもパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2020-07-13T14:51:02Z) - Synthetic Learning: Learn From Distributed Asynchronized Discriminator
GAN Without Sharing Medical Image Data [21.725983290877753]
我々は分散非同期識別器GAN(AsynDGAN)という名前の分散GAN学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-29T21:05:49Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z) - Brainstorming Generative Adversarial Networks (BGANs): Towards
Multi-Agent Generative Models with Distributed Private Datasets [70.62568022925971]
生成的敵ネットワーク(GAN)は、データ空間を適切に表現する大規模なデータセットによって供給されなければならない。
多くのシナリオでは、利用可能なデータセットは制限され、複数のエージェントに分散する可能性がある。
本稿では,BGAN(Breepstorming GAN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-02T02:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。