論文の概要: Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation
- arxiv url: http://arxiv.org/abs/2007.09923v1
- Date: Mon, 20 Jul 2020 08:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:21:45.025645
- Title: Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation
- Title(参考訳): 自己回帰画像生成における強化逆学習の導入
- Authors: Kenan E. Ak, Ning Xu, Zhe Lin, Yilin Wang
- Abstract要約: 本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
- 参考スコア(独自算出の注目度): 39.55651747758391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive models recently achieved comparable results versus
state-of-the-art Generative Adversarial Networks (GANs) with the help of Vector
Quantized Variational AutoEncoders (VQ-VAE). However, autoregressive models
have several limitations such as exposure bias and their training objective
does not guarantee visual fidelity. To address these limitations, we propose to
use Reinforced Adversarial Learning (RAL) based on policy gradient optimization
for autoregressive models. By applying RAL, we enable a similar process for
training and testing to address the exposure bias issue. In addition, visual
fidelity has been further optimized with adversarial loss inspired by their
strong counterparts: GANs. Due to the slow sampling speed of autoregressive
models, we propose to use partial generation for faster training. RAL also
empowers the collaboration between different modules of the VQ-VAE framework.
To our best knowledge, the proposed method is first to enable adversarial
learning in autoregressive models for image generation. Experiments on
synthetic and real-world datasets show improvements over the MLE trained
models. The proposed method improves both negative log-likelihood (NLL) and
Fr\'echet Inception Distance (FID), which indicates improvements in terms of
visual quality and diversity. The proposed method achieves state-of-the-art
results on Celeba for 64 $\times$ 64 image resolution, showing promise for
large scale image generation.
- Abstract(参考訳): 自動回帰モデルは、Vector Quantized Variational AutoEncoders (VQ-VAE)の助けを借りて、最先端のGAN(Generative Adversarial Networks)と同等の結果を得た。
しかし、自己回帰モデルには露出バイアスのようないくつかの制限があり、その訓練目的は視覚的忠実さを保証しない。
これらの制約に対処するために,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALを適用することで、同様のトレーニングとテストのプロセスで、露出バイアスの問題に対処できます。
さらに、視覚的忠実度は、強い相手であるGANにインスパイアされた敵対的損失によってさらに最適化されている。
自己回帰モデルのサンプリング速度が遅いため,より高速なトレーニングに部分生成を用いることを提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,画像生成のための自己回帰モデルにおいて,まず敵対学習を可能にする。
合成および実世界のデータセットの実験は、MLEトレーニングモデルよりも改善されている。
提案手法は,NLLとFr'echet Inception Distance(FID)の両方を改善し,視覚的品質と多様性の向上を示す。
提案手法は,64$\times$64の画像解像度でCelebaの最先端化を実現し,大規模画像生成の実現を約束する。
関連論文リスト
- Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。
RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。
RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文 参考訳(メタデータ) (2024-03-25T15:40:22Z) - Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。