論文の概要: Factorized Visual Tokenization and Generation
- arxiv url: http://arxiv.org/abs/2411.16681v2
- Date: Wed, 27 Nov 2024 17:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:27:05.717317
- Title: Factorized Visual Tokenization and Generation
- Title(参考訳): ファクトライズされた視覚トークン化と生成
- Authors: Zechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou,
- Abstract要約: 本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
- 参考スコア(独自算出の注目度): 37.56136469262736
- License:
- Abstract: Visual tokenizers are fundamental to image generation. They convert visual data into discrete tokens, enabling transformer-based models to excel at image generation. Despite their success, VQ-based tokenizers like VQGAN face significant limitations due to constrained vocabulary sizes. Simply expanding the codebook often leads to training instability and diminishing performance gains, making scalability a critical challenge. In this work, we introduce Factorized Quantization (FQ), a novel approach that revitalizes VQ-based tokenizers by decomposing a large codebook into multiple independent sub-codebooks. This factorization reduces the lookup complexity of large codebooks, enabling more efficient and scalable visual tokenization. To ensure each sub-codebook captures distinct and complementary information, we propose a disentanglement regularization that explicitly reduces redundancy, promoting diversity across the sub-codebooks. Furthermore, we integrate representation learning into the training process, leveraging pretrained vision models like CLIP and DINO to infuse semantic richness into the learned representations. This design ensures our tokenizer captures diverse semantic levels, leading to more expressive and disentangled representations. Experiments show that the proposed FQGAN model substantially improves the reconstruction quality of visual tokenizers, achieving state-of-the-art performance. We further demonstrate that this tokenizer can be effectively adapted into auto-regressive image generation. https://showlab.github.io/FQGAN
- Abstract(参考訳): ビジュアルトークン化器は画像生成の基本である。
視覚データを個別のトークンに変換し、トランスフォーマーベースのモデルで画像生成に優れる。
その成功にもかかわらず、VQGANのようなVQベースのトークン化器は、制限付き語彙サイズのため、重大な制限に直面している。
単にコードブックを拡張するだけで、トレーニングの不安定さやパフォーマンス向上の低下につながることが多く、スケーラビリティが重要な課題になります。
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization (FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
そこで本研究では,各サブコードブックが個別かつ補完的な情報を確実に取得するために,冗長性を明示的に低減し,サブコードブック間の多様性を向上するアンタングル化正規化を提案する。
さらに、CLIPやDINOといった事前学習された視覚モデルを利用して、表現学習をトレーニングプロセスに統合し、意味豊かさを学習表現に注入する。
この設計により、トークンーは多様なセマンティックレベルをキャプチャし、より表現力が高く不整合な表現につながる。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
さらに,このトークンを自動回帰画像生成に効果的に適用できることを実証した。
https://showlab.github.io/FQGAN
関連論文リスト
- Image Understanding Makes for A Good Tokenizer for Image Generation [62.875788091204626]
我々は,トークンシーケンスにイメージを投影する効果的なトークン化器に依存する,トークンベースのIGフレームワークを提案する。
我々は、強力なIU機能を持つトークン化装置が、さまざまなメトリクス、データセット、タスク、提案ネットワークで優れたIG性能を実現することを示す。
論文 参考訳(メタデータ) (2024-11-07T03:55:23Z) - SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook [9.993066868670283]
本稿では,SGC-VQGANをセマンティックオンラインクラスタリング法で導入し,一貫性セマンティックラーニングによるトークンセマンティクスを強化する。
提案手法は時間空間的に一貫したセマンティック・コードブックを構築し,コードブックの崩壊問題と不均衡なトークン・セマンティクスに対処する。
論文 参考訳(メタデータ) (2024-09-09T23:12:43Z) - UniCode: Learning a Unified Codebook for Multimodal Large Language Models [33.48624855154342]
マルチモーダル大言語モデル(MLLM)の領域内での新しいアプローチである textbfUniCode を提案する。
UniCodeは、視覚、テキスト、潜在的に他の種類の信号を効率的にトークン化する統一されたコードブックを学習する。
トレーニング中にパラメータが大幅に少なく、データが少ないにもかかわらず、Unicodeは視覚的再構成と生成の有望な能力を示している。
論文 参考訳(メタデータ) (2024-03-14T03:29:58Z) - Finite Scalar Quantization: VQ-VAE Made Simple [26.351016719675766]
我々は、VQ-VAEの潜在表現におけるベクトル量子化(VQ)を、有限スカラー量子化(FSQ)と呼ばれる単純なスキームで置き換えることを提案する。
それぞれの次元と値の数を適切に選択することにより、VQと同じコードブックサイズが得られる。
画像生成にはFSQとMaskGIT,深度推定にはUViMを用いる。
論文 参考訳(メタデータ) (2023-09-27T09:13:40Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Masked Autoencoders are Robust Data Augmentors [90.34825840657774]
ディープニューラルネットワークの一般化には、画像拡張のような正規化技術が必要である。
本稿では,トレーニングプロセスの正規化に向けて,新たな拡張の視点を提案する。
このようなモデルに基づく非線形変換をデータ拡張として活用することで,高レベルの認識タスクを向上できることを示す。
論文 参考訳(メタデータ) (2022-06-10T02:41:48Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Robust Training of Vector Quantized Bottleneck Models [21.540133031071438]
ベクトル量子変分自動エンコーダモデル(VQ-VAEs)を用いた離散表現の信頼性と効率的な訓練法を示す。
教師なし表現学習では、変分オートエンコーダ(VAE)のような連続潜伏変数モデルの代替となる。
論文 参考訳(メタデータ) (2020-05-18T08:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。