論文の概要: Finite Scalar Quantization: VQ-VAE Made Simple
- arxiv url: http://arxiv.org/abs/2309.15505v2
- Date: Thu, 12 Oct 2023 07:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 14:53:48.753669
- Title: Finite Scalar Quantization: VQ-VAE Made Simple
- Title(参考訳): 有限スカラー量子化:vq-vaeがシンプルに
- Authors: Fabian Mentzer, David Minnen, Eirikur Agustsson, Michael Tschannen
- Abstract要約: 我々は、VQ-VAEの潜在表現におけるベクトル量子化(VQ)を、有限スカラー量子化(FSQ)と呼ばれる単純なスキームで置き換えることを提案する。
それぞれの次元と値の数を適切に選択することにより、VQと同じコードブックサイズが得られる。
画像生成にはFSQとMaskGIT,深度推定にはUViMを用いる。
- 参考スコア(独自算出の注目度): 26.351016719675766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to replace vector quantization (VQ) in the latent representation
of VQ-VAEs with a simple scheme termed finite scalar quantization (FSQ), where
we project the VAE representation down to a few dimensions (typically less than
10). Each dimension is quantized to a small set of fixed values, leading to an
(implicit) codebook given by the product of these sets. By appropriately
choosing the number of dimensions and values each dimension can take, we obtain
the same codebook size as in VQ. On top of such discrete representations, we
can train the same models that have been trained on VQ-VAE representations. For
example, autoregressive and masked transformer models for image generation,
multimodal generation, and dense prediction computer vision tasks. Concretely,
we employ FSQ with MaskGIT for image generation, and with UViM for depth
estimation, colorization, and panoptic segmentation. Despite the much simpler
design of FSQ, we obtain competitive performance in all these tasks. We
emphasize that FSQ does not suffer from codebook collapse and does not need the
complex machinery employed in VQ (commitment losses, codebook reseeding, code
splitting, entropy penalties, etc.) to learn expressive discrete
representations.
- Abstract(参考訳): VQ-VAEの潜在表現におけるベクトル量子化(VQ)を、有限スカラー量子化(FSQ)と呼ばれる単純なスキームで置き換えることを提案する。
各次元は小さな固定値の集合に量子化され、これらの集合の積によって与えられる(単純)コードブックとなる。
それぞれの次元と値の数を適切に選択することにより、VQと同じコードブックサイズが得られる。
このような離散表現に加えて、vq-vae表現でトレーニングされたモデルと同じモデルをトレーニングできる。
例えば、画像生成、マルチモーダル生成、高密度予測コンピュータビジョンタスクのための自動回帰およびマスク付きトランスフォーマーモデルである。
具体的には,画像生成にはfsq,画像生成にはmaskgit,奥行き推定,カラー化,汎視セグメンテーションにuvimを用いる。
FSQのよりシンプルな設計にもかかわらず、これらのタスクの競合性能を得る。
我々は,fsqがコードブックの崩壊に苦しむことなく,vq(コミットロス,コードブックの再閲覧,コード分割,エントロピーペナルティなど)で使用される複雑な機械を必要としないことを強調する。
関連論文リスト
- Factorized Visual Tokenization and Generation [37.56136469262736]
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
論文 参考訳(メタデータ) (2024-11-25T18:59:53Z) - LASERS: LAtent Space Encoding for Representations with Sparsity for Generative Modeling [3.9426000822656224]
より潜在的な空間はより表現力が高く、ベクトル量子化アプローチよりも表現性がよいことを示す。
以上の結果から,VQ手法の真の利点は,潜伏空間の離散化ではなく,潜伏空間の損失圧縮によるものである可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-16T08:20:58Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。
本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed
Stochastic Quantization [13.075574481614478]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の注目すべき問題は、学習された離散表現がコードブックの全容量のごく一部しか使用していないことである。
本稿では,新しい量子化法と量子化法により,標準VAEを拡張した新しいトレーニング手法を提案する。
実験の結果,SQ-VAEはコモンズを使わずにコードブックの利用を改善することがわかった。
論文 参考訳(メタデータ) (2022-05-16T09:49:37Z) - VQFR: Blind Face Restoration with Vector-Quantized Dictionary and
Parallel Decoder [83.63843671885716]
本稿では,VQFRを用いた顔復元手法を提案する。
VQFRは高品質な顔から抽出された高品質の低レベル特徴バンクを利用する。
VQコードブックから生成されたリアルな詳細を「汚染」せず、入力から低レベルな特徴をさらに融合させるため、並列デコーダを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:54:40Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。