論文の概要: Rethinking conditional GAN training: An approach using geometrically
structured latent manifolds
- arxiv url: http://arxiv.org/abs/2011.13055v3
- Date: Wed, 2 Jun 2021 11:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 03:12:24.036632
- Title: Rethinking conditional GAN training: An approach using geometrically
structured latent manifolds
- Title(参考訳): 条件付きGANトレーニングの再考:幾何学的構造付き潜在多様体を用いたアプローチ
- Authors: Sameera Ramasinghe, Moshiur Farazi, Salman Khan, Nick Barnes, Stephen
Gould
- Abstract要約: 条件付きGAN(cGAN)は、生成された出力の多様性の欠如などの重大な欠点に悩まされる。
本稿では,バニラcGANの多様性と視覚的品質を両立させる新しいトレーニング機構を提案する。
- 参考スコア(独自算出の注目度): 58.07468272236356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional GANs (cGAN), in their rudimentary form, suffer from critical
drawbacks such as the lack of diversity in generated outputs and distortion
between the latent and output manifolds. Although efforts have been made to
improve results, they can suffer from unpleasant side-effects such as the
topology mismatch between latent and output spaces. In contrast, we tackle this
problem from a geometrical perspective and propose a novel training mechanism
that increases both the diversity and the visual quality of a vanilla cGAN, by
systematically encouraging a bi-lipschitz mapping between the latent and the
output manifolds. We validate the efficacy of our solution on a baseline cGAN
(i.e., Pix2Pix) which lacks diversity, and show that by only modifying its
training mechanism (i.e., with our proposed Pix2Pix-Geo), one can achieve more
diverse and realistic outputs on a broad set of image-to-image translation
tasks. Codes are available at https://github.com/samgregoost/Rethinking-CGANs.
- Abstract(参考訳): 条件付きGAN(cGAN)はその初歩的な形態で、生成された出力の多様性の欠如や潜在多様体と出力多様体の間の歪みなどの重大な欠点に悩まされる。
結果を改善する努力がなされているが、潜在空間と出力空間の位相ミスマッチのような不快な副作用に苦しむことがある。
これとは対照的に,我々は幾何学的観点からこの問題に取り組み,潜在変数と出力多様体の間の双リプシッツ写像を体系的に奨励することにより,バニラcGANの多様性と視覚的品質の両方を高める新しいトレーニング機構を提案する。
我々は, 多様性を欠いたベースラインcgan (pix2pix) 上でのソリューションの有効性を検証し, そのトレーニング機構(pix2pix-geo)を変更するだけで, 幅広い画像から画像への翻訳タスクにおいて, より多様で現実的なアウトプットが得られることを示す。
コードはhttps://github.com/samgregoost/rethinking-cgansで入手できる。
関連論文リスト
- A Contrastive Variational Graph Auto-Encoder for Node Clustering [10.52321770126932]
最先端のクラスタリング手法には多くの課題がある。
既存のVGAEは、推論と生成モデルの相違を考慮していない。
私たちのソリューションには、フィーチャーランダムネスとフィーチャードリフトのトレードオフを制御する2つのメカニズムがあります。
論文 参考訳(メタデータ) (2023-12-28T05:07:57Z) - Compressing Image-to-Image Translation GANs Using Local Density
Structures on Their Learned Manifold [69.33930972652594]
GAN(Generative Adversarial Networks)は、画像から画像への変換のための複雑なデータ分散のモデル化において、顕著な成功を収めている。
既存のGAN圧縮法は主に知識蒸留や畳み込み分類器の刈り取り技術に依存している。
学習多様体上の元のパラメータ重モデルの密度構造を保存するために,プルーンドモデルを明示的に促すことにより,新しいアプローチを提案する。
画像変換GANモデルであるPix2PixとCycleGANについて,様々なベンチマークデータセットとアーキテクチャを用いて実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-12-22T15:43:12Z) - A Bayesian Non-parametric Approach to Generative Models: Integrating
Variational Autoencoder and Generative Adversarial Networks using Wasserstein
and Maximum Mean Discrepancy [2.966338139852619]
GAN(Generative Adversarial Network)とVAE(VAE)は、最も顕著で広く研究されている生成モデルである。
ベイズ的非パラメトリック(BNP)アプローチを用いて、GANとVAEを融合する。
本稿では,GANの識別能力とVAEの再構成能力とを融合させることにより,多種多様な生成タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-27T08:58:31Z) - A Closer Look at Few-shot Image Generation [38.83570296616384]
訓練済みのGANを小さなターゲットデータで転送する場合、ジェネレータはトレーニングサンプルを複製する傾向がある。
この数ショットの画像生成に対処するいくつかの方法が提案されているが、それらを統一されたフレームワークで分析する努力が不足している。
適応中に既存の手法を解析するためのフレームワークを提案する。
第2のコントリビューションは、ソースドメインのリッチなマルチレベル多様性情報をターゲットドメインジェネレータに保持するために、相互情報(MI)を適用することを提案する。
論文 参考訳(メタデータ) (2022-05-08T07:46:26Z) - Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image
Translation [56.44946660061753]
本稿では,最大空間摂動整合(MSPC)と呼ばれる普遍正規化手法を提案する。
MSPCは空間摂動関数(T)と変換演算子(G)を可換(TG = GT)に強制する。
提案手法は,ほとんどのI2Iベンチマークにおいて最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-03-23T19:59:04Z) - Heterogeneous Face Frontalization via Domain Agnostic Learning [74.86585699909459]
本研究では, 視覚領域における正面視を, ポーズのバリエーションで合成できるドメイン非依存学習型生成逆数ネットワーク(DAL-GAN)を提案する。
DAL-GANは、補助分類器を備えたジェネレータと、より優れた合成のために局所的およびグローバルなテクスチャ識別をキャプチャする2つの識別器から構成される。
論文 参考訳(メタデータ) (2021-07-17T20:41:41Z) - Hierarchical Modes Exploring in Generative Adversarial Networks [14.557204104822215]
条件付き生成逆数ネットワーク(cGAN)では、2つの異なる初期ノイズが同じ条件情報とペアリングされた場合、マイナーモードは大きなモードに崩壊する可能性がある。
正規化項として目的関数に多様性測定を導入することにより,cGANのモード崩壊を軽減する階層型モード探索法を提案する。
論文 参考訳(メタデータ) (2020-03-05T10:43:50Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。