論文の概要: Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99%
- arxiv url: http://arxiv.org/abs/2406.11837v1
- Date: Mon, 17 Jun 2024 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 13:04:25.301765
- Title: Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99%
- Title(参考訳): 利用率99%でVQGANのコードブックサイズを10万に拡大
- Authors: Lei Zhu, Fangyun Wei, Yanye Lu, Dong Chen,
- Abstract要約: 本稿では,VQGAN-LC (Large Codebook) という新しい画像量子化モデルを提案する。
本稿では,画像再構成,画像分類,GPTを用いた自己回帰画像生成,拡散およびフローベース生成モデルによる画像生成など,さまざまなタスクにおいて,モデルの性能が優れていることを示す。
- 参考スコア(独自算出の注目度): 35.710953589794855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of image quantization exemplified by VQGAN, the process encodes images into discrete tokens drawn from a codebook with a predefined size. Recent advancements, particularly with LLAMA 3, reveal that enlarging the codebook significantly enhances model performance. However, VQGAN and its derivatives, such as VQGAN-FC (Factorized Codes) and VQGAN-EMA, continue to grapple with challenges related to expanding the codebook size and enhancing codebook utilization. For instance, VQGAN-FC is restricted to learning a codebook with a maximum size of 16,384, maintaining a typically low utilization rate of less than 12% on ImageNet. In this work, we propose a novel image quantization model named VQGAN-LC (Large Codebook), which extends the codebook size to 100,000, achieving an utilization rate exceeding 99%. Unlike previous methods that optimize each codebook entry, our approach begins with a codebook initialized with 100,000 features extracted by a pre-trained vision encoder. Optimization then focuses on training a projector that aligns the entire codebook with the feature distributions of the encoder in VQGAN-LC. We demonstrate the superior performance of our model over its counterparts across a variety of tasks, including image reconstruction, image classification, auto-regressive image generation using GPT, and image creation with diffusion- and flow-based generative models. Code and models are available at https://github.com/zh460045050/VQGAN-LC.
- Abstract(参考訳): VQGANで実証された画像量子化の領域において、このプロセスは事前に定義された大きさのコードブックから引き出された離散トークンに画像をエンコードする。
近年の進歩、特にLAMA 3では、コードブックの拡張によりモデルの性能が大幅に向上している。
しかしながら、VQGANとその派生種であるVQGAN-FC(Factorized Codes)やVQGAN-EMAは、コードブックのサイズを拡大し、コードブックの利用を拡大する際の課題に悩まされ続けている。
例えば、VQGAN-FCは最大サイズ16,384のコードブックを学習することに限定されており、ImageNetでは一般的に12%未満の低い利用率を維持している。
本研究では,VQGAN-LC(Large Codebook)と呼ばれる新しい画像量子化モデルを提案する。
各コードブックエントリを最適化する従来の方法とは異なり、私たちのアプローチは、事前訓練された視覚エンコーダによって抽出された10万の機能を初期化したコードブックから始まります。
次に最適化は、コードブック全体とVQGAN-LCのエンコーダの機能分布を整列するプロジェクタのトレーニングに焦点を当てる。
本稿では,画像再構成,画像分類,GPTを用いた自己回帰画像生成,拡散およびフローベース生成モデルによる画像生成など,さまざまなタスクにおいて,モデルの性能が優れていることを示す。
コードとモデルはhttps://github.com/zh460045050/VQGAN-LCで入手できる。
関連論文リスト
- Image Understanding Makes for A Good Tokenizer for Image Generation [62.875788091204626]
我々は,トークンシーケンスにイメージを投影する効果的なトークン化器に依存する,トークンベースのIGフレームワークを提案する。
我々は、強力なIU機能を持つトークン化装置が、さまざまなメトリクス、データセット、タスク、提案ネットワークで優れたIG性能を実現することを示す。
論文 参考訳(メタデータ) (2024-11-07T03:55:23Z) - LG-VQ: Language-Guided Codebook Learning [36.422599206253324]
ベクトル量子化(VQ)は高解像度かつ高忠実な画像合成において重要な技術である。
本稿ではLG-VQと呼ばれる新しい言語誘導型コードブック学習フレームワークを提案する。
提案手法は、再構成および様々なマルチモーダル下流タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-23T06:04:40Z) - Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling [15.132926378740882]
本稿では、事前学習された言語モデルからVQIMへ、十分に訓練されたコードブックを転送することを目的とした、VQCTというパート・オブ・音声による新しいコードブック転送フレームワークを提案する。
4つのデータセットに対する実験結果から,VQCT法は従来の最先端手法よりも優れたVQIM性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-15T07:24:13Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z) - Learning Image-Adaptive Codebooks for Class-Agnostic Image Restoration [13.718779033187786]
クラスに依存しない画像復元のための画像適応型コードブックを学習するためのAdaCodeを提案する。
AdaCodeは、以前の作業よりも柔軟で表現力豊かな離散生成である。
論文 参考訳(メタデータ) (2023-06-10T19:32:47Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - FewGAN: Generating from the Joint Distribution of a Few Images [95.6635227371479]
本稿では,新しい,高品質で多様な画像を生成するための生成モデルFewGANを紹介する。
FewGANは、第1の粗いスケールで量子化を適用した階層的なパッチGANであり、その後、より微細なスケールで残った完全畳み込みGANのピラミッドが続く。
大規模な実験では、FewGANは定量的にも定性的にも基線より優れていることが示されている。
論文 参考訳(メタデータ) (2022-07-18T07:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。