論文の概要: Rethinking the Objectives of Vector-Quantized Tokenizers for Image
Synthesis
- arxiv url: http://arxiv.org/abs/2212.03185v1
- Date: Tue, 6 Dec 2022 17:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 17:18:12.340471
- Title: Rethinking the Objectives of Vector-Quantized Tokenizers for Image
Synthesis
- Title(参考訳): 画像合成のためのベクトル量子化トケナイザの目的の再考
- Authors: Yuchao Gu, Xintao Wang, Yixiao Ge, Ying Shan, Xiaohu Qie, Mike Zheng
Shou
- Abstract要約: 本稿では,VQトークン化器の再構成精度の向上が,生成変換器の生成能力の向上に必ずしも寄与しないことを示す。
本稿では,2つの学習フェーズを持つセマンティック・量子化GAN (Semantic-Quantized GAN) を提案する。
我々のSeQ-GAN(364M)は6.25のFrechet Inception Distance(FID)と256x256 ImageNet生成の140.9のInception Score(IS)を達成する。
- 参考スコア(独自算出の注目度): 30.654501418221475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector-Quantized (VQ-based) generative models usually consist of two basic
components, i.e., VQ tokenizers and generative transformers. Prior research
focuses on improving the reconstruction fidelity of VQ tokenizers but rarely
examines how the improvement in reconstruction affects the generation ability
of generative transformers. In this paper, we surprisingly find that improving
the reconstruction fidelity of VQ tokenizers does not necessarily improve the
generation. Instead, learning to compress semantic features within VQ
tokenizers significantly improves generative transformers' ability to capture
textures and structures. We thus highlight two competing objectives of VQ
tokenizers for image synthesis: semantic compression and details preservation.
Different from previous work that only pursues better details preservation, we
propose Semantic-Quantized GAN (SeQ-GAN) with two learning phases to balance
the two objectives. In the first phase, we propose a semantic-enhanced
perceptual loss for better semantic compression. In the second phase, we fix
the encoder and codebook, but enhance and finetune the decoder to achieve
better details preservation. The proposed SeQ-GAN greatly improves VQ-based
generative models and surpasses the GAN and Diffusion Models on both
unconditional and conditional image generation. Our SeQ-GAN (364M) achieves
Frechet Inception Distance (FID) of 6.25 and Inception Score (IS) of 140.9 on
256x256 ImageNet generation, a remarkable improvement over VIT-VQGAN (714M),
which obtains 11.2 FID and 97.2 IS.
- Abstract(参考訳): ベクトル量子化(VQベース)生成モデルは通常、2つの基本成分、すなわちVQトークン化器と生成変換器から構成される。
先行研究は、vqトークン化器の再構成精度の向上に重点を置いているが、再構成の改善が生成トランスの生成能力にどのように影響するかをほとんど検証していない。
本稿では,vqトークン化器の再構成精度の向上が必ずしも世代を改善しないことを示す。
代わりに、vqトークンライザ内のセマンティック機能を圧縮する学習は、テクスチャや構造をキャプチャする生成トランスフォーマーの能力を大幅に向上させる。
そこで,画像合成のためのvqトークン化器の2つの競合する目的を強調する。
より詳細な保存を追求する以前の研究とは違い,2つの学習段階を持つセマンティック・量子化GAN(Semantic-Quantized GAN)を提案する。
第1フェーズでは、より優れた意味圧縮のための意味強調知覚損失を提案する。
第2フェーズでは、エンコーダとコードブックを修正しながら、デコーダの強化と微調整を行い、より詳細な保存を実現する。
提案したSeQ-GANは、VQベースの生成モデルを大幅に改善し、無条件画像生成と条件画像生成の両方においてGANおよび拡散モデルを上回る。
我々のSeQ-GAN(364M)は6.25のFrechet Inception Distance(FID)と256x256 ImageNet生成の140.9のInception Score(IS)を達成し、VIT-VQGAN(714M)よりも大幅に改善され11.2FIDと97.2ISが得られる。
関連論文リスト
- ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - Designing a Better Asymmetric VQGAN for StableDiffusion [73.21783102003398]
革命的なテキスト・ツー・イメージ生成器であるStableDiffusionは、VQGANを介して潜時空間の拡散モデルを学ぶ。
2つの単純な設計を持つ新しい非対称VQGANを提案する。
StableDiffusionベースの塗り絵やローカル編集手法で広く用いられる。
論文 参考訳(メタデータ) (2023-06-07T17:56:02Z) - Image Compression with Product Quantized Masked Image Modeling [44.15706119017024]
最近のニューラル圧縮法は、人気のあるハイパープライアフレームワークに基づいている。
Scalar Quantizationに依存しており、非常に強力な圧縮パフォーマンスを提供します。
これは、ベクトル量子化が一般的に用いられる画像生成と表現学習の最近の進歩とは対照的である。
論文 参考訳(メタデータ) (2022-12-14T17:50:39Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Lossless Acceleration for Seq2seq Generation with Aggressive Decoding [74.12096349944497]
アグレッシブデコーディング(Aggressive Decoding)は、セq2seq生成のための新しいデコーディングアルゴリズムである。
提案手法は, 自己回帰復号法と比較し, 同一(あるいは良好な)生成を実現することを目的としている。
複数のSeq2seqタスクにおいて、GPU上で最も人気のある6層トランスフォーマーモデル上で、攻撃的デコーディングをテストする。
論文 参考訳(メタデータ) (2022-05-20T17:59:00Z) - VQFR: Blind Face Restoration with Vector-Quantized Dictionary and
Parallel Decoder [83.63843671885716]
本稿では,VQFRを用いた顔復元手法を提案する。
VQFRは高品質な顔から抽出された高品質の低レベル特徴バンクを利用する。
VQコードブックから生成されたリアルな詳細を「汚染」せず、入力から低レベルな特徴をさらに融合させるため、並列デコーダを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:54:40Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Hierarchical Quantized Autoencoders [3.9146761527401432]
本稿では,Vector Quantized Variencoders (VQ-VAEs) の階層構造を用いて,高い圧縮係数を求める。
量子化と階層的潜在構造の組み合わせは、確率に基づく画像圧縮に役立つことを示す。
得られたスキームは、高い知覚品質の画像を再構成するマルコフ変数の列を生成する。
論文 参考訳(メタデータ) (2020-02-19T11:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。