論文の概要: Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation
- arxiv url: http://arxiv.org/abs/2007.09923v1
- Date: Mon, 20 Jul 2020 08:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:21:45.025645
- Title: Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation
- Title(参考訳): 自己回帰画像生成における強化逆学習の導入
- Authors: Kenan E. Ak, Ning Xu, Zhe Lin, Yilin Wang
- Abstract要約: 本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
- 参考スコア(独自算出の注目度): 39.55651747758391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive models recently achieved comparable results versus
state-of-the-art Generative Adversarial Networks (GANs) with the help of Vector
Quantized Variational AutoEncoders (VQ-VAE). However, autoregressive models
have several limitations such as exposure bias and their training objective
does not guarantee visual fidelity. To address these limitations, we propose to
use Reinforced Adversarial Learning (RAL) based on policy gradient optimization
for autoregressive models. By applying RAL, we enable a similar process for
training and testing to address the exposure bias issue. In addition, visual
fidelity has been further optimized with adversarial loss inspired by their
strong counterparts: GANs. Due to the slow sampling speed of autoregressive
models, we propose to use partial generation for faster training. RAL also
empowers the collaboration between different modules of the VQ-VAE framework.
To our best knowledge, the proposed method is first to enable adversarial
learning in autoregressive models for image generation. Experiments on
synthetic and real-world datasets show improvements over the MLE trained
models. The proposed method improves both negative log-likelihood (NLL) and
Fr\'echet Inception Distance (FID), which indicates improvements in terms of
visual quality and diversity. The proposed method achieves state-of-the-art
results on Celeba for 64 $\times$ 64 image resolution, showing promise for
large scale image generation.
- Abstract(参考訳): 自動回帰モデルは、Vector Quantized Variational AutoEncoders (VQ-VAE)の助けを借りて、最先端のGAN(Generative Adversarial Networks)と同等の結果を得た。
しかし、自己回帰モデルには露出バイアスのようないくつかの制限があり、その訓練目的は視覚的忠実さを保証しない。
これらの制約に対処するために,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALを適用することで、同様のトレーニングとテストのプロセスで、露出バイアスの問題に対処できます。
さらに、視覚的忠実度は、強い相手であるGANにインスパイアされた敵対的損失によってさらに最適化されている。
自己回帰モデルのサンプリング速度が遅いため,より高速なトレーニングに部分生成を用いることを提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,画像生成のための自己回帰モデルにおいて,まず敵対学習を可能にする。
合成および実世界のデータセットの実験は、MLEトレーニングモデルよりも改善されている。
提案手法は,NLLとFr'echet Inception Distance(FID)の両方を改善し,視覚的品質と多様性の向上を示す。
提案手法は,64$\times$64の画像解像度でCelebaの最先端化を実現し,大規模画像生成の実現を約束する。
関連論文リスト
- Reward Incremental Learning in Text-to-Image Generation [26.64026346266299]
本稿では,計算オーバーヘッドを最小限に抑える方法であるReward Incremental Distillation(RID)を提案する。
実験結果から,RILシナリオにおける一貫した高次勾配生成の実現におけるRIDの有効性が示された。
論文 参考訳(メタデータ) (2024-11-26T10:54:33Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。
RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。
RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文 参考訳(メタデータ) (2024-03-25T15:40:22Z) - Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - InfoMax-GAN: Improved Adversarial Image Generation via Information
Maximization and Contrastive Learning [39.316605441868944]
GAN(Generative Adversarial Networks)は、多くのジェネレーティブモデリングアプリケーションの基本である。
本稿では,GANにおける2つの基本的な問題を同時に緩和する基本的枠組みを提案する。
提案手法は, 5つのデータセットにわたる画像合成において, GANトレーニングを著しく安定化し, GAN性能を向上させる。
論文 参考訳(メタデータ) (2020-07-09T06:56:11Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。