論文の概要: MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation
- arxiv url: http://arxiv.org/abs/2209.09002v1
- Date: Mon, 19 Sep 2022 13:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:38:30.185251
- Title: MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation
- Title(参考訳): MoVQ:高忠実画像生成のための量子ベクトル変調
- Authors: Chuanxia Zheng and Long Tung Vuong and Jianfei Cai and Dinh Phung
- Abstract要約: 2段階ベクトル量子化(VQ)生成モデルは、高忠実度と高解像度の画像の合成を可能にする。
提案した変調VQGANは、再構成画像の品質を大幅に向上し、高忠実度画像生成を可能にする。
- 参考スコア(独自算出の注目度): 41.029441562130984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although two-stage Vector Quantized (VQ) generative models allow for
synthesizing high-fidelity and high-resolution images, their quantization
operator encodes similar patches within an image into the same index, resulting
in a repeated artifact for similar adjacent regions using existing decoder
architectures. To address this issue, we propose to incorporate the spatially
conditional normalization to modulate the quantized vectors so as to insert
spatially variant information to the embedded index maps, encouraging the
decoder to generate more photorealistic images. Moreover, we use multichannel
quantization to increase the recombination capability of the discrete codes
without increasing the cost of model and codebook. Additionally, to generate
discrete tokens at the second stage, we adopt a Masked Generative Image
Transformer (MaskGIT) to learn an underlying prior distribution in the
compressed latent space, which is much faster than the conventional
autoregressive model. Experiments on two benchmark datasets demonstrate that
our proposed modulated VQGAN is able to greatly improve the reconstructed image
quality as well as provide high-fidelity image generation.
- Abstract(参考訳): 2段階ベクトル量子化(VQ)生成モデルは高忠実で高解像度の画像の合成を可能にするが、量子化演算子は画像内の類似のパッチを同じインデックスにエンコードし、既存のデコーダアーキテクチャを用いて、類似の領域に対して繰り返しアーティファクトを生成する。
そこで本研究では,組込みインデックスマップに空間的変異情報を挿入するために,量子化ベクトルを変調するために空間条件正規化を組み込むことを提案し,デコーダによりフォトリアリズムな画像を生成するよう促す。
さらに,マルチチャネル量子化を用いて,モデルやコードブックのコストを増加させることなく,離散符号の再結合能力を向上させる。
さらに,第2段階で離散トークンを生成するために,Masked Generative Image Transformer (MaskGIT) を用い,従来の自己回帰モデルよりもはるかに高速な圧縮潜在空間の事前分布を学習する。
2つのベンチマークデータセットを用いた実験により,提案したVQGANは再構成画像の品質を大幅に向上し,高忠実度画像生成を実現することができることが示された。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
ビットトークンを直接操作する新しい埋め込み不要な生成ネットワークは、ImageNet 256x256ベンチマークで1.52の最先端FIDを達成し、わずか305Mパラメータのコンパクトなジェネレータモデルである。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - Content-aware Masked Image Modeling Transformer for Stereo Image Compression [15.819672238043786]
本稿では,CAMSICというステレオ画像圧縮フレームワークを提案する。
CAMSICは各画像を潜在表現に変換し、強力なデコーダフリートランスフォーマーエントロピーモデルを用いる。
実験により,本フレームワークは2つのステレオ画像データセット上で,最先端の速度歪み性能を実現することが示された。
論文 参考訳(メタデータ) (2024-03-13T13:12:57Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Generating Images with Sparse Representations [21.27273495926409]
画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。
JPEGのような一般的な画像圧縮法に触発された代替手法を提示し、画像を量子化された離散コサイン変換(DCT)ブロックに変換する。
本稿では,次の要素の条件分布を逐次的に予測するトランスフォーマに基づく自己回帰型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-05T17:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。