論文の概要: Semantic Image Synthesis with Semantically Coupled VQ-Model
- arxiv url: http://arxiv.org/abs/2209.02536v1
- Date: Tue, 6 Sep 2022 14:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:31:53.940222
- Title: Semantic Image Synthesis with Semantically Coupled VQ-Model
- Title(参考訳): 意味結合vqモデルを用いた意味画像合成
- Authors: Stephan Alaniz, Thomas Hummel, Zeynep Akata
- Abstract要約: 本稿では,ベクトル量子化モデル (VQ-model) から遅延空間を条件付きで合成する。
本モデルは,ADE20k,Cityscapes,COCO-Stuffといった人気セマンティック画像データセットを用いた自己回帰モデルを用いて,セマンティック画像合成を改善することを示す。
- 参考スコア(独自算出の注目度): 42.19799555533789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic image synthesis enables control over unconditional image generation
by allowing guidance on what is being generated. We conditionally synthesize
the latent space from a vector quantized model (VQ-model) pre-trained to
autoencode images. Instead of training an autoregressive Transformer on
separately learned conditioning latents and image latents, we find that jointly
learning the conditioning and image latents significantly improves the modeling
capabilities of the Transformer model. While our jointly trained VQ-model
achieves a similar reconstruction performance to a vanilla VQ-model for both
semantic and image latents, tying the two modalities at the autoencoding stage
proves to be an important ingredient to improve autoregressive modeling
performance. We show that our model improves semantic image synthesis using
autoregressive models on popular semantic image datasets ADE20k, Cityscapes and
COCO-Stuff.
- Abstract(参考訳): セマンティック画像合成は、生成されているものに関するガイダンスを提供することで、無条件画像生成を制御することができる。
本稿では,ベクトル量子化モデル (VQ-model) から遅延空間を条件付きで合成する。
自己回帰トランスフォーマーを個別に学習した条件付潜時と画像用潜時を訓練する代わりに、条件付潜時と画像用潜時を共同で学習することで、トランスフォーマーモデルのモデリング能力を大幅に向上させることがわかった。
共同学習したvqモデルとsemanticとimage latentsの両方でvanilla vq-modelと同様の再構成性能が得られたが,オートエンコーディング段階での2つのモダリティの結合は,自己回帰的モデリング性能を向上させる上で重要な要素であることが証明された。
提案手法は,ade20k,cityscapes,coco-stuffを用いた自己回帰モデルを用いて意味画像合成を改善する。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Exploring Stochastic Autoregressive Image Modeling for Visual
Representation [24.582376834198403]
本稿では,2つの簡単な設計による自己回帰画像モデリング(SAIM)を提案する。
予測と並列エンコーダデコーダの導入により,SAIMは自己回帰画像モデリングの性能を著しく向上させる。
提案手法は,ImageNet-1Kデータのみを用いて,バニラVTベースモデル上で最高の精度(83.9%)を実現する。
論文 参考訳(メタデータ) (2022-12-03T13:04:29Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。