論文の概要: Rethinking the Objectives of Vector-Quantized Tokenizers for Image
Synthesis
- arxiv url: http://arxiv.org/abs/2212.03185v1
- Date: Tue, 6 Dec 2022 17:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 17:18:12.340471
- Title: Rethinking the Objectives of Vector-Quantized Tokenizers for Image
Synthesis
- Title(参考訳): 画像合成のためのベクトル量子化トケナイザの目的の再考
- Authors: Yuchao Gu, Xintao Wang, Yixiao Ge, Ying Shan, Xiaohu Qie, Mike Zheng
Shou
- Abstract要約: 本稿では,VQトークン化器の再構成精度の向上が,生成変換器の生成能力の向上に必ずしも寄与しないことを示す。
本稿では,2つの学習フェーズを持つセマンティック・量子化GAN (Semantic-Quantized GAN) を提案する。
我々のSeQ-GAN(364M)は6.25のFrechet Inception Distance(FID)と256x256 ImageNet生成の140.9のInception Score(IS)を達成する。
- 参考スコア(独自算出の注目度): 30.654501418221475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector-Quantized (VQ-based) generative models usually consist of two basic
components, i.e., VQ tokenizers and generative transformers. Prior research
focuses on improving the reconstruction fidelity of VQ tokenizers but rarely
examines how the improvement in reconstruction affects the generation ability
of generative transformers. In this paper, we surprisingly find that improving
the reconstruction fidelity of VQ tokenizers does not necessarily improve the
generation. Instead, learning to compress semantic features within VQ
tokenizers significantly improves generative transformers' ability to capture
textures and structures. We thus highlight two competing objectives of VQ
tokenizers for image synthesis: semantic compression and details preservation.
Different from previous work that only pursues better details preservation, we
propose Semantic-Quantized GAN (SeQ-GAN) with two learning phases to balance
the two objectives. In the first phase, we propose a semantic-enhanced
perceptual loss for better semantic compression. In the second phase, we fix
the encoder and codebook, but enhance and finetune the decoder to achieve
better details preservation. The proposed SeQ-GAN greatly improves VQ-based
generative models and surpasses the GAN and Diffusion Models on both
unconditional and conditional image generation. Our SeQ-GAN (364M) achieves
Frechet Inception Distance (FID) of 6.25 and Inception Score (IS) of 140.9 on
256x256 ImageNet generation, a remarkable improvement over VIT-VQGAN (714M),
which obtains 11.2 FID and 97.2 IS.
- Abstract(参考訳): ベクトル量子化(VQベース)生成モデルは通常、2つの基本成分、すなわちVQトークン化器と生成変換器から構成される。
先行研究は、vqトークン化器の再構成精度の向上に重点を置いているが、再構成の改善が生成トランスの生成能力にどのように影響するかをほとんど検証していない。
本稿では,vqトークン化器の再構成精度の向上が必ずしも世代を改善しないことを示す。
代わりに、vqトークンライザ内のセマンティック機能を圧縮する学習は、テクスチャや構造をキャプチャする生成トランスフォーマーの能力を大幅に向上させる。
そこで,画像合成のためのvqトークン化器の2つの競合する目的を強調する。
より詳細な保存を追求する以前の研究とは違い,2つの学習段階を持つセマンティック・量子化GAN(Semantic-Quantized GAN)を提案する。
第1フェーズでは、より優れた意味圧縮のための意味強調知覚損失を提案する。
第2フェーズでは、エンコーダとコードブックを修正しながら、デコーダの強化と微調整を行い、より詳細な保存を実現する。
提案したSeQ-GANは、VQベースの生成モデルを大幅に改善し、無条件画像生成と条件画像生成の両方においてGANおよび拡散モデルを上回る。
我々のSeQ-GAN(364M)は6.25のFrechet Inception Distance(FID)と256x256 ImageNet生成の140.9のInception Score(IS)を達成し、VIT-VQGAN(714M)よりも大幅に改善され11.2FIDと97.2ISが得られる。
関連論文リスト
- Factorized Visual Tokenization and Generation [37.56136469262736]
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
論文 参考訳(メタデータ) (2024-11-25T18:59:53Z) - Image Understanding Makes for A Good Tokenizer for Image Generation [62.875788091204626]
我々は,トークンシーケンスにイメージを投影する効果的なトークン化器に依存する,トークンベースのIGフレームワークを提案する。
我々は、強力なIU機能を持つトークン化装置が、さまざまなメトリクス、データセット、タスク、提案ネットワークで優れたIG性能を実現することを示す。
論文 参考訳(メタデータ) (2024-11-07T03:55:23Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [54.139923409101044]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Lossless Acceleration for Seq2seq Generation with Aggressive Decoding [74.12096349944497]
アグレッシブデコーディング(Aggressive Decoding)は、セq2seq生成のための新しいデコーディングアルゴリズムである。
提案手法は, 自己回帰復号法と比較し, 同一(あるいは良好な)生成を実現することを目的としている。
複数のSeq2seqタスクにおいて、GPU上で最も人気のある6層トランスフォーマーモデル上で、攻撃的デコーディングをテストする。
論文 参考訳(メタデータ) (2022-05-20T17:59:00Z) - VQFR: Blind Face Restoration with Vector-Quantized Dictionary and
Parallel Decoder [83.63843671885716]
本稿では,VQFRを用いた顔復元手法を提案する。
VQFRは高品質な顔から抽出された高品質の低レベル特徴バンクを利用する。
VQコードブックから生成されたリアルな詳細を「汚染」せず、入力から低レベルな特徴をさらに融合させるため、並列デコーダを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:54:40Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - Hierarchical Quantized Autoencoders [3.9146761527401432]
本稿では,Vector Quantized Variencoders (VQ-VAEs) の階層構造を用いて,高い圧縮係数を求める。
量子化と階層的潜在構造の組み合わせは、確率に基づく画像圧縮に役立つことを示す。
得られたスキームは、高い知覚品質の画像を再構成するマルコフ変数の列を生成する。
論文 参考訳(メタデータ) (2020-02-19T11:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。