論文の概要: A Simple and Effective Baseline for Attentional Generative Adversarial
Networks
- arxiv url: http://arxiv.org/abs/2306.14708v2
- Date: Thu, 6 Jul 2023 14:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 17:01:58.721290
- Title: A Simple and Effective Baseline for Attentional Generative Adversarial
Networks
- Title(参考訳): 注意型生成型adversarial networkのための単純かつ効果的なベースライン
- Authors: Mingyu Jin, Chong Zhang, Qinkai Yu, Haochen Xue, Xiaobo Jin, Xi Yang
- Abstract要約: テキスト記述を通して生成モデルを導くことで高品質な画像のテキスト・ツー・イメージモデルを構築することは革新的で挑戦的な課題である。
近年、GANトレーニングをガイドするAttnGAN、SD-GAN、Stack-GAN++が提案されている。
我々は,AttnGANの冗長構造を除去し,バックボーンネットワークを改善するために,一般的なシンプルで効果的なアイデア(1)を用いる。
モデルの性能が変化しないことを保証しながら、モデルのサイズとトレーニング効率を大幅に改善しました。
- 参考スコア(独自算出の注目度): 8.63558211869045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesising a text-to-image model of high-quality images by guiding the
generative model through the Text description is an innovative and challenging
task. In recent years, AttnGAN based on the Attention mechanism to guide GAN
training has been proposed, SD-GAN, which adopts a self-distillation technique
to improve the performance of the generator and the quality of image
generation, and Stack-GAN++, which gradually improves the details and quality
of the image by stacking multiple generators and discriminators. However, this
series of improvements to GAN all have redundancy to a certain extent, which
affects the generation performance and complexity to a certain extent. We use
the popular simple and effective idea (1) to remove redundancy structure and
improve the backbone network of AttnGAN. (2) to integrate and reconstruct
multiple losses of DAMSM. Our improvements have significantly improved the
model size and training efficiency while ensuring that the model's performance
is unchanged and finally proposed our SEAttnGAN. Code is avalilable at
https://github.com/jmyissb/SEAttnGAN.
- Abstract(参考訳): テキスト記述を通じて生成モデルを導くことで高品質画像のテキスト対画像モデルを合成することは、革新的で挑戦的なタスクである。
近年,GANトレーニングをガイドするアテンション機構に基づくAttnGAN,ジェネレータの性能と画像生成の質を向上させる自己蒸留技術を採用したSD-GAN,複数のジェネレータと識別器を積み重ねることで画像の細部と品質を徐々に改善するStack-GAN++などが提案されている。
しかし、この一連のGANの改善は、いずれもある程度の冗長性を持ち、世代性能と複雑性にある程度影響を及ぼす。
我々は,AttnGANの冗長構造を除去し,バックボーンネットワークを改善するために,一般的なシンプルで効果的なアイデア(1)を用いる。
2) DAMSMの複数損失の統合と再構築。
モデルサイズとトレーニング効率を大幅に改善するとともに,モデルの性能が変化しないことを保証し,最終的にSEAttnGANを提案する。
コードはhttps://github.com/jmyissb/SEAttnGANで検証可能である。
関連論文リスト
- E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - GIU-GANs: Global Information Utilization for Generative Adversarial
Networks [3.3945834638760948]
本稿では,Involution Generative Adversarial Networks (GIU-GANs) と呼ばれる新しいGANを提案する。
GIU-GANは、Squeeze-and-Excitation Networks (SENet)とInvolutionを統合したGlobal Information utilization (GIU)モジュールと呼ばれる新しいモジュールを利用している。
バッチ正規化(BN)は、ジェネレータがサンプリングしたノイズ間の表現差を必然的に無視し、生成した画質を劣化させる。
論文 参考訳(メタデータ) (2022-01-25T17:17:15Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - Evolving GAN Formulations for Higher Quality Image Synthesis [15.861807854144228]
generative adversarial networks (gans) はディープラーニングを複雑な生成と翻訳タスクに拡張した。
トレーニングプロセスにおけるモード崩壊やその他の不安定性は、生成された結果の品質を劣化させることが多い。
本稿では2つのネットワーク毎にカスタマイズされた損失関数を発見し,GANを改善するためのTaylorGANという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-17T05:11:21Z) - InfoMax-GAN: Improved Adversarial Image Generation via Information
Maximization and Contrastive Learning [39.316605441868944]
GAN(Generative Adversarial Networks)は、多くのジェネレーティブモデリングアプリケーションの基本である。
本稿では,GANにおける2つの基本的な問題を同時に緩和する基本的枠組みを提案する。
提案手法は, 5つのデータセットにわたる画像合成において, GANトレーニングを著しく安定化し, GAN性能を向上させる。
論文 参考訳(メタデータ) (2020-07-09T06:56:11Z) - DeshuffleGAN: A Self-Supervised GAN to Improve Structure Learning [0.0]
我々は、GAN性能を改善する上で重要なポイントの1つは、データ内の空間構造を学習する能力を備えたモデルを提供することであると主張している。
ランダムにシャッフルされた画像タイルのパズルを解くデシャッフルタスクを導入し、デシャッフルGANが空間構造と現実的な外観の表現能力を向上させるのに役立つ。
論文 参考訳(メタデータ) (2020-06-15T19:06:07Z) - Iterative Network for Image Super-Resolution [69.07361550998318]
単一画像超解像(SISR)は、最近の畳み込みニューラルネットワーク(CNN)の発展により、大幅に活性化されている。
本稿では、従来のSISRアルゴリズムに関する新たな知見を提供し、反復最適化に依存するアプローチを提案する。
反復最適化の上に,新しい反復型超解像ネットワーク (ISRN) を提案する。
論文 参考訳(メタデータ) (2020-05-20T11:11:47Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。