論文の概要: Channel-wise Vector Quantization
- arxiv url: http://arxiv.org/abs/2605.26089v2
- Date: Mon, 01 Jun 2026 17:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.433322
- Title: Channel-wise Vector Quantization
- Title(参考訳): チャネルワイドベクトル量子化
- Authors: Wei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Min Li, Jiaqi Wang, Kaicheng Yu,
- Abstract要約: 本稿では,パッチワイズトークンをチャネルワイズトークンに置き換える新しい画像トークン化パラダイムとして,チャネルワイズベクトル量子化(CVQ)を提案する。
CVQは、イメージをパッチのグリッドとしてではなく、個別の視覚的詳細レベルとして表現する。
CVQは16K以上のコードブックサイズで100%のコードブック利用を実現し,従来のベクトル量子化よりも再現性を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 59.96775089792198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Channel-wise Vector Quantization (CVQ), a novel image tokenization paradigm that replaces patch-wise tokens with channel-wise tokens. Unlike conventional vector quantization, which assigns a discrete token to each patch feature vector, CVQ quantizes each channel of the feature map. This formulation represents an image as discrete levels of visual details, rather than as a grid of spatial patches. Based on CVQ, we introduce a new visual autoregressive framework with "next-channel prediction". Instead of rendering images patch by patch in raster order, our Channel-wise Autoregressive (CAR) model predicts image channels sequentially, producing progressively enriched visual details. Specifically, it first sketches global structure and then refines fine-grained attributes, akin to a human artist's workflow. Empirically, we show that: (1) CVQ achieves 100% codebook utilization with a 16K+ codebook size without any bells and whistles, and substantially improves reconstruction quality over conventional VQ; and (2) CAR attains a DPG score of 86.7 and a GenEval score of 0.79, demonstrating strong effectiveness for text-to-image generation.
- Abstract(参考訳): 本稿では,パッチワイズトークンをチャネルワイズトークンに置き換える新しい画像トークン化パラダイムとして,チャネルワイズベクトル量子化(CVQ)を提案する。
パッチ特徴ベクトルごとに離散トークンを割り当てる従来のベクトル量子化とは異なり、CVQは特徴写像の各チャネルを定量化する。
この定式化は、イメージを空間パッチのグリッドとしてではなく、視覚的詳細の離散レベルとして表現する。
CVQに基づいて,次世代の予測機能を備えた視覚的自己回帰フレームワークを提案する。
ラスタ順にパッチを当ててイメージをレンダリングする代わりに、Channel-wise Autoregressive (CAR)モデルは、画像チャネルを逐次予測し、徐々にリッチな視覚的詳細を生成する。
具体的には、まずグローバルな構造をスケッチし、人間アーティストのワークフローに似た、きめ細かい属性を洗練します。
実験により,(1)CVQは16K以上のコードブックサイズで100%のコードブック利用を実現し,従来のVQよりも大幅な品質向上を実現し,(2)CARはDPGスコア86.7とGenEvalスコア0.79を達成し,テキスト・画像生成に強力な効果を示した。
関連論文リスト
- Hita: Holistic Tokenizer for Autoregressive Image Generation [56.81871174745175]
自己回帰(AR)画像生成のための新しい画像トークンであるtextitHita を紹介する。
学習可能な全体的クエリとローカルパッチトークンを備えた、全体論的から局所的なトークン化スキームを導入している。
論文 参考訳(メタデータ) (2025-07-03T06:44:26Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization [43.12251414524675]
ベクトル量子化(VQ)を用いたマスクド画像モデリング(MIM)は,自己教師付き事前学習と画像生成において大きな成功を収めている。
本稿では,VQに基づく生成モデルにトークンマージ手法を組み込んで,画像生成と視覚表現学習のギャップを埋めるMergeVQを提案する。
論文 参考訳(メタデータ) (2025-04-01T17:39:19Z) - Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction [4.900334213807624]
自己回帰モデリングをより困難にすることなく、大規模なコードブックのメリットを享受する方法を示す。
本フレームワークは,(1)各トークンの粗いラベルを逐次予測する自己回帰モデル,(2)粗いラベルに条件付けられた全てのトークンの細粒度ラベルを同時に予測する補助モデル,の2段階からなる。
論文 参考訳(メタデータ) (2025-03-20T14:41:29Z) - Autoregressive Image Generation with Randomized Parallel Decoding [28.352741116124538]
本稿では,ランダム化並列生成が可能な新しい視覚自己回帰モデルであるARPGを紹介する。
ARPGは推論の30倍以上の高速化と、メモリ消費の75%削減を実現している。
ImageNet-1K 256ベンチマークでは、32ステップのサンプリングでFIDが1.83に達した。
論文 参考訳(メタデータ) (2025-03-13T17:19:51Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。