論文の概要: Adversarial Code Learning for Image Generation
- arxiv url: http://arxiv.org/abs/2001.11539v1
- Date: Thu, 30 Jan 2020 19:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:02:31.782477
- Title: Adversarial Code Learning for Image Generation
- Title(参考訳): 画像生成のためのadversarial code learning
- Authors: Jiangbo Yuan, Bing Wu, Wanying Ding, Qing Ping, and Zhendong Yu
- Abstract要約: ACL(Adversarial Code Learning)モジュールは、画像生成性能をいくつかのディープモデルに改善する。
我々は,元来のGANとよく似た,対角的な学習プロセスで学習を行う。
我々のモデルは、画像生成タスクの汎用性を示す重要な改善を達成している。
- 参考スコア(独自算出の注目度): 6.471449014998549
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the "adversarial code learning" (ACL) module that improves
overall image generation performance to several types of deep models. Instead
of performing a posterior distribution modeling in the pixel spaces of
generators, ACLs aim to jointly learn a latent code with another image
encoder/inference net, with a prior noise as its input. We conduct the learning
in an adversarial learning process, which bears a close resemblance to the
original GAN but again shifts the learning from image spaces to prior and
latent code spaces. ACL is a portable module that brings up much more
flexibility and possibilities in generative model designs. First, it allows
flexibility to convert non-generative models like Autoencoders and standard
classification models to decent generative models. Second, it enhances existing
GANs' performance by generating meaningful codes and images from any part of
the prior. We have incorporated our ACL module with the aforementioned
frameworks and have performed experiments on synthetic, MNIST, CIFAR-10, and
CelebA datasets. Our models have achieved significant improvements which
demonstrated the generality for image generation tasks.
- Abstract(参考訳): 本稿では,複数種類の深層モデルに対して,画像生成全体のパフォーマンスを向上させる"adversarial code learning"(acl)モジュールを提案する。
aclsは、ジェネレータの画素空間で後方分布モデリングを行う代わりに、以前のノイズを入力として、別の画像エンコーダ/参照ネットと潜在コードを共同学習することを目指している。
我々は、元のganとよく似ているが、再び学習を画像空間から事前コード空間と潜在コード空間にシフトさせる、敵対的学習プロセスで学習を行う。
ACLは、生成モデル設計において、ずっと柔軟性と可能性をもたらすポータブルモジュールである。
まず、オートエンコーダや標準分類モデルのような非生成モデルから適切な生成モデルに変換する柔軟性がある。
第二に、前のどの部分から有意義なコードや画像を生成することで、既存のGANのパフォーマンスを向上させる。
ACLモジュールを前述のフレームワークに組み込んで,合成,MNIST,CIFAR-10,CelebAデータセットの実験を行った。
我々のモデルは画像生成タスクの汎用性を示す重要な改善を達成している。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。
RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。
RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文 参考訳(メタデータ) (2024-03-25T15:40:22Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with
Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Decoupling Global and Local Representations via Invertible Generative
Flows [47.366299240738094]
標準画像ベンチマークによる実験結果から, 密度推定, 画像生成, 教師なし表現学習の観点から, モデルの有効性が示された。
この研究は、確率に基づく目的を持つ生成モデルが疎結合表現を学習でき、明示的な監督を必要としないことを示した。
論文 参考訳(メタデータ) (2020-04-12T03:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。