Fugu-MT 論文翻訳(概要): Incorporating Reinforced Adversarial Learning in Autoregressive Image Generation

論文の概要: Incorporating Reinforced Adversarial Learning in Autoregressive Image Generation

arxiv url: http://arxiv.org/abs/2007.09923v1
Date: Mon, 20 Jul 2020 08:10:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 13:21:45.025645
Title: Incorporating Reinforced Adversarial Learning in Autoregressive Image Generation
Title（参考訳）: 自己回帰画像生成における強化逆学習の導入
Authors: Kenan E. Ak, Ning Xu, Zhe Lin, Yilin Wang
Abstract要約: 本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。 RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
参考スコア（独自算出の注目度）: 39.55651747758391
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregressive models recently achieved comparable results versus state-of-the-art Generative Adversarial Networks (GANs) with the help of Vector Quantized Variational AutoEncoders (VQ-VAE). However, autoregressive models have several limitations such as exposure bias and their training objective does not guarantee visual fidelity. To address these limitations, we propose to use Reinforced Adversarial Learning (RAL) based on policy gradient optimization for autoregressive models. By applying RAL, we enable a similar process for training and testing to address the exposure bias issue. In addition, visual fidelity has been further optimized with adversarial loss inspired by their strong counterparts: GANs. Due to the slow sampling speed of autoregressive models, we propose to use partial generation for faster training. RAL also empowers the collaboration between different modules of the VQ-VAE framework. To our best knowledge, the proposed method is first to enable adversarial learning in autoregressive models for image generation. Experiments on synthetic and real-world datasets show improvements over the MLE trained models. The proposed method improves both negative log-likelihood (NLL) and Fr\'echet Inception Distance (FID), which indicates improvements in terms of visual quality and diversity. The proposed method achieves state-of-the-art results on Celeba for 64 $\times$ 64 image resolution, showing promise for large scale image generation.
Abstract（参考訳）: 自動回帰モデルは、Vector Quantized Variational AutoEncoders (VQ-VAE)の助けを借りて、最先端のGAN(Generative Adversarial Networks)と同等の結果を得た。しかし、自己回帰モデルには露出バイアスのようないくつかの制限があり、その訓練目的は視覚的忠実さを保証しない。これらの制約に対処するために,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。 RALを適用することで、同様のトレーニングとテストのプロセスで、露出バイアスの問題に対処できます。さらに、視覚的忠実度は、強い相手であるGANにインスパイアされた敵対的損失によってさらに最適化されている。自己回帰モデルのサンプリング速度が遅いため,より高速なトレーニングに部分生成を用いることを提案する。 RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。提案手法は,画像生成のための自己回帰モデルにおいて,まず敵対学習を可能にする。合成および実世界のデータセットの実験は、MLEトレーニングモデルよりも改善されている。提案手法は,NLLとFr'echet Inception Distance(FID)の両方を改善し,視覚的品質と多様性の向上を示す。提案手法は,64$\times$64の画像解像度でCelebaの最先端化を実現し,大規模画像生成の実現を約束する。

関連論文リスト

Fine-Tuning Next-Scale Visual Autoregressive Models with Group Relative Policy Optimization [1.1510009152620668]
強化学習(Reinforcement Learning, RL)を用いた微調整事前学習生成モデルは, 出力と人間の嗜好を整合させる効果的なアプローチとして登場した。 RLに基づくファインチューニングは、VARモデルに対して効率的かつ効果的であり、特に高速な推論速度の恩恵を受けていることを示す。
論文参考訳（メタデータ） (2025-05-29T10:45:38Z)
Boosting Generative Image Modeling via Joint Image-Feature Synthesis [10.32324138962724]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文参考訳（メタデータ） (2025-04-22T17:41:42Z)
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文参考訳（メタデータ） (2025-01-23T18:59:43Z)
Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文参考訳（メタデータ） (2024-12-18T18:59:53Z)
Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文参考訳（メタデータ） (2024-12-09T21:36:10Z)
Reward Incremental Learning in Text-to-Image Generation [26.64026346266299]
本稿では,計算オーバーヘッドを最小限に抑える方法であるReward Incremental Distillation(RID)を提案する。実験結果から,RILシナリオにおける一貫した高次勾配生成の実現におけるRIDの有効性が示された。
論文参考訳（メタデータ） (2024-11-26T10:54:33Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。 RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。 RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文参考訳（メタデータ） (2024-03-25T15:40:22Z)
Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文参考訳（メタデータ） (2024-03-08T10:19:00Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文参考訳（メタデータ） (2021-10-21T13:04:21Z)
InfoMax-GAN: Improved Adversarial Image Generation via Information Maximization and Contrastive Learning [39.316605441868944]
GAN(Generative Adversarial Networks)は、多くのジェネレーティブモデリングアプリケーションの基本である。本稿では,GANにおける2つの基本的な問題を同時に緩和する基本的枠組みを提案する。提案手法は, 5つのデータセットにわたる画像合成において, GANトレーニングを著しく安定化し, GAN性能を向上させる。
論文参考訳（メタデータ） (2020-07-09T06:56:11Z)
High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文参考訳（メタデータ） (2020-01-13T14:39:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。