論文の概要: Taming Scalable Visual Tokenizer for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2412.02692v1
- Date: Tue, 03 Dec 2024 18:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:39.453838
- Title: Taming Scalable Visual Tokenizer for Autoregressive Image Generation
- Title(参考訳): 自動回帰画像生成のためのスケーラブルなビジュアルトケナイザの開発
- Authors: Fengyuan Shi, Zhuoyan Luo, Yixiao Ge, Yujiu Yang, Ying Shan, Limin Wang,
- Abstract要約: インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。
IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
- 参考スコア(独自算出の注目度): 74.15447383432262
- License:
- Abstract: Existing vector quantization (VQ) methods struggle with scalability, largely attributed to the instability of the codebook that undergoes partial updates during training. The codebook is prone to collapse as utilization decreases, due to the progressively widening distribution gap between non-activated codes and visual features. To solve the problem, we propose Index Backpropagation Quantization (IBQ), a new VQ method for the joint optimization of all codebook embeddings and the visual encoder. Applying a straight-through estimator on the one-hot categorical distribution between the encoded feature and codebook, all codes are differentiable and maintain a consistent latent space with the visual encoder. IBQ enables scalable training of visual tokenizers and, for the first time, achieves a large-scale codebook ($2^{18}$) with high dimension ($256$) and high utilization. Experiments on the standard ImageNet benchmark demonstrate the scalability and superiority of IBQ, achieving competitive results on both reconstruction ($1.00$ rFID) and autoregressive visual generation ($2.05$ gFID). The code and models are available at https://github.com/TencentARC/SEED-Voken.
- Abstract(参考訳): 既存のベクトル量子化(VQ)メソッドは、トレーニング中に部分的な更新を行うコードブックの不安定さに起因するスケーラビリティに苦慮している。
非アクティブなコードと視覚的特徴の間の分散ギャップが徐々に広がるため、コードブックは利用が減少するにつれて崩壊しがちである。
そこで本研究では,すべてのコードブック埋め込みとビジュアルエンコーダの協調最適化のための新しいVQ手法であるIndex Backproagation Quantization (IBQ)を提案する。
符号化された特徴とコードブックの間の1ホットのカテゴリ分布にストレートスルー推定器を適用すると、すべてのコードは微分可能であり、ビジュアルエンコーダと一貫した潜伏空間を維持する。
IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブック(2^{18}$)を達成する。
標準的なImageNetベンチマークの実験では、IBQのスケーラビリティと優位性を実証し、再構成(1.00$ rFID)と自動回帰視覚生成(2.05$ gFID)の両方で競合する結果を得ることができた。
コードとモデルはhttps://github.com/TencentARC/SEED-Voken.comで公開されている。
関連論文リスト
- Factorized Visual Tokenization and Generation [37.56136469262736]
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
論文 参考訳(メタデータ) (2024-11-25T18:59:53Z) - Image Understanding Makes for A Good Tokenizer for Image Generation [62.875788091204626]
我々は,トークンシーケンスにイメージを投影する効果的なトークン化器に依存する,トークンベースのIGフレームワークを提案する。
我々は、強力なIU機能を持つトークン化装置が、さまざまなメトリクス、データセット、タスク、提案ネットワークで優れたIG性能を実現することを示す。
論文 参考訳(メタデータ) (2024-11-07T03:55:23Z) - Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling [15.132926378740882]
本稿では、事前学習された言語モデルからVQIMへ、十分に訓練されたコードブックを転送することを目的とした、VQCTというパート・オブ・音声による新しいコードブック転送フレームワークを提案する。
4つのデータセットに対する実験結果から,VQCT法は従来の最先端手法よりも優れたVQIM性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-15T07:24:13Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Dual Associated Encoder for Face Restoration [68.49568459672076]
低品質(LQ)画像から顔の詳細を復元するために,DAEFRという新しいデュアルブランチフレームワークを提案する。
提案手法では,LQ入力から重要な情報を抽出する補助的なLQ分岐を導入する。
合成と実世界の両方のデータセットに対するDAEFRの有効性を評価する。
論文 参考訳(メタデータ) (2023-08-14T17:58:33Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - VQFR: Blind Face Restoration with Vector-Quantized Dictionary and
Parallel Decoder [83.63843671885716]
本稿では,VQFRを用いた顔復元手法を提案する。
VQFRは高品質な顔から抽出された高品質の低レベル特徴バンクを利用する。
VQコードブックから生成されたリアルな詳細を「汚染」せず、入力から低レベルな特徴をさらに融合させるため、並列デコーダを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。