論文の概要: Online Clustered Codebook
- arxiv url: http://arxiv.org/abs/2307.15139v1
- Date: Thu, 27 Jul 2023 18:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 14:43:59.573408
- Title: Online Clustered Codebook
- Title(参考訳): オンラインクラスタコードブック
- Authors: Chuanxia Zheng and Andrea Vedaldi
- Abstract要約: オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
- 参考スコア(独自算出の注目度): 100.1650001618827
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vector Quantisation (VQ) is experiencing a comeback in machine learning,
where it is increasingly used in representation learning. However, optimizing
the codevectors in existing VQ-VAE is not entirely trivial. A problem is
codebook collapse, where only a small subset of codevectors receive gradients
useful for their optimisation, whereas a majority of them simply ``dies off''
and is never updated or used. This limits the effectiveness of VQ for learning
larger codebooks in complex computer vision tasks that require high-capacity
representations. In this paper, we present a simple alternative method for
online codebook learning, Clustering VQ-VAE (CVQ-VAE). Our approach selects
encoded features as anchors to update the ``dead'' codevectors, while
optimising the codebooks which are alive via the original loss. This strategy
brings unused codevectors closer in distribution to the encoded features,
increasing the likelihood of being chosen and optimized. We extensively
validate the generalization capability of our quantiser on various datasets,
tasks (e.g. reconstruction and generation), and architectures (e.g. VQ-VAE,
VQGAN, LDM). Our CVQ-VAE can be easily integrated into the existing models with
just a few lines of code.
- Abstract(参考訳): ベクトル量子化(VQ)は、機械学習において復活し、表現学習でますます使われている。
しかし、既存のvq-vaeにおける符号ベクトルの最適化は完全に自明ではない。
問題はコードブックの崩壊であり、コードベクタの小さなサブセットだけが最適化に有用な勾配を受け取っているのに対して、その大半は単に‘dies off’で更新や使用は行われない。
これにより、高容量表現を必要とする複雑なコンピュータビジョンタスクにおいて、大きなコードブックを学習するためのvqの有効性が制限される。
本稿では,オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
我々のアプローチでは、‘dead’'コードベクトルを更新するアンカーとしてエンコードされた機能を選択し、元の損失によって生存しているコードブックを最適化する。
この戦略は、未使用のコードベクタを符号化された機能に近づけ、選択され、最適化される可能性を高める。
我々は、様々なデータセット、タスク(再構築と生成など)、アーキテクチャ(VQ-VAE、VQGAN、LDMなど)に基づいて、量子化器の一般化能力を広範囲に検証する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
関連論文リスト
- Addressing Representation Collapse in Vector Quantized Models with One Linear Layer [10.532262196027752]
ベクトル量子化(英: Vector Quantization, VQ)は、連続表現を離散符号に変換する方法である。
VQモデルは、潜在空間における表現崩壊の問題によってしばしば妨げられる。
線形変換層を通じてコードベクトルを再パラメータ化する新しい手法である textbfSimVQ を提案する。
論文 参考訳(メタデータ) (2024-11-04T12:40:18Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。
本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling [15.132926378740882]
本稿では、事前学習された言語モデルからVQIMへ、十分に訓練されたコードブックを転送することを目的とした、VQCTというパート・オブ・音声による新しいコードブック転送フレームワークを提案する。
4つのデータセットに対する実験結果から,VQCT法は従来の最先端手法よりも優れたVQIM性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-15T07:24:13Z) - HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes [18.57499609338579]
本稿では,階層的量子化変分オートエンコーダ(HQ-VAE)と呼ばれる,変分ベイズフレームワークに基づく階層的離散表現学習フレームワークを提案する。
HQ-VAEはVQ-VAE-2や残留量子化VAE(RQ-VAE)のようなVQ-VAEの階層的変種を自然に一般化する
画像データセットに関する総合的な実験により、HQ-VAEはコードブックの使用率を高め、再構築性能を向上させることが示された。
論文 参考訳(メタデータ) (2023-12-31T01:39:38Z) - Recursive Visual Programming [53.76415744371285]
本稿では、生成ルーチンを単純化し、より効率的な問題解決を提供し、より複雑なデータ構造を管理するRecursive Visual Programming (RVP)を提案する。
本稿では,VSR,COVR,GQA,NextQAなどのベンチマークにおいて,RVPの有効性を示す。
論文 参考訳(メタデータ) (2023-12-04T17:27:24Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Finite Scalar Quantization: VQ-VAE Made Simple [26.351016719675766]
我々は、VQ-VAEの潜在表現におけるベクトル量子化(VQ)を、有限スカラー量子化(FSQ)と呼ばれる単純なスキームで置き換えることを提案する。
それぞれの次元と値の数を適切に選択することにより、VQと同じコードブックサイズが得られる。
画像生成にはFSQとMaskGIT,深度推定にはUViMを用いる。
論文 参考訳(メタデータ) (2023-09-27T09:13:40Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。